九原客 Profile
九原客

@9hills

12,509
Followers
769
Following
200
Media
3,813
Statuses

喜欢一切美好的事物

北京, 中华人民共和国
Joined February 2010
Don't wanna be here? Send us removal request.
@9hills
九原客
3 months
这个大神也是神人。年薪上千万刀的工作也不做,就出各种LLM学习的项目和视频,质量也是天花板。 如下视频也是我见过最好的大模型介绍,不亚于一篇最好的大模型综述。
@karpathy
Andrej Karpathy
3 months
Have you ever wanted to train LLMs in pure C without 245MB of PyTorch and 107MB of cPython? No? Well now you can! With llm.c: To start, implements GPT-2 training on CPU/fp32 in only ~1,000 lines of clean code. It compiles and runs instantly, and exactly
307
2K
13K
41
400
1K
@9hills
九原客
2 months
有同学问我如何快速零基础了解大模型原理。 我一般会推荐这套视频,可视化做的非常的棒,总共也就三个小时,不仅适合了解,也是很不错的入门。
32
369
1K
@9hills
九原客
1 year
可能是迄今为止大语言模型最好的中文综述(学术向) 哪怕是做大语言模型应用,也应该粗略了解,否则很多术语和背景无法理解。 综述不需要太多的AI背景,应该都能看懂。
29
269
827
@9hills
九原客
3 months
看论文看到哈哈大笑,用「弱智吧」标题+GPT-4回答微调后的Yi-34B模型评估结果超过了精心收集的 SFT 指令集数据,安全性评估也是第二名。 弱智吧就是百度弱智吧,里面的帖子是这种画风:「既然监狱里全是罪犯,👮♀️为什么不去监狱里抓人?」 论文:
Tweet media one
Tweet media two
44
171
855
@9hills
九原客
2 months
上次给同学推荐了快速了解大模型的视频,有另外的同学说他想系统的学习大语言模型。 我推荐这本书,适合有一定基础,愿意深入了解大模型知识的同学。
9
204
827
@9hills
九原客
3 months
最新开源模型选择个人推荐(超过40B的建议购买API服务,其他则建议自行int4部署)。 中文 RAG 选择 CommandR+ Agent/FunctionCalling 使用 Llama3-70B 或 CommandR+ 中文文案写作用Qwen-72B,语言更Local一些。 特定任务的小参数微调base模型用 Llama3-8B 或 Mistral-7B 大参数微调base 模型用 Yi-34B
35
204
789
@9hills
九原客
4 months
Claude 3 Opus + ChainForge,明显提升了 Prompt 编写效率。工作流: 1. 手动编写测试用例种子和原始 Prompt。 2. 让 Claude 3 根据 Prompt和种子,生成大量测试用例。 3. 在 ChainForge 上构建 workflow,尤其是测试。 4. 让 Claude 3 迭代 Prompt。 5. 不断的测试,拿到最好的效果。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
20
154
678
@9hills
九原客
2 years
踩坑,http(s)_proxy 和 HTTP(S)_PROXY 有很大的区别。
Tweet media one
28
129
615
@9hills
九原客
24 days
大模型现在被某些人吹为新一轮的技术革命。 但是对行业带来的技术革命和生产力的提升到底是什么? 问答?写作?这种其实都不是企业的核心业务流。 做了一年多大模型落地,是越来越困惑了。
185
60
526
@9hills
九原客
1 year
ChatGPT 目前各类应用都非常内卷。最近用 Immersive Translate Chrome 插件替换了 OpenAI Translator 插件。 前者的优点是提供沉浸式的双语对照翻译,能够较大的提高阅读效率。同时还提供epub、pdf等翻译功能。 插件地址:
Tweet media one
23
147
482
@9hills
九原客
1 year
搞了一个 Colab 上运行的 ChatGLM OpenAI API。这样就可以利用任意 OpenAI 客户端(如 OpenCat)来调用 ChatGLM 啦(目前 API 用的 ngrok 的临时 URL) 后续会开个 Repo,支持开源 Embeddings 、Cloudflare Tunnel 以及微调模型。
Tweet media one
Tweet media two
34
116
493
@9hills
九原客
3 months
把Github Copilot 订阅停了,尝试了三个免费的替代: Codeium:不能更换模型,但可以免费无限使用。 Tabnine:开源,支持本地模型。 :开源,支持本地和API模型。但是Tab补全推荐使用sft后的本地模型。 目前以Codeium 和Continue配合,前者用于tab补全,后者替代Copilot Chat
40
105
490
@9hills
九原客
2 months
!!真正的全过程开源的中英文双语大模型。 1. 4.7T tokens 的中英文清洗后语料,配比挺合理。 2. 扫描PDF 转 Markdown 的工作流,可以识别图片、表格和公式!!! 3. 中英文的预训练数据处理 Pipeline,拿来即用~ 4. 最终的 7B
@GeZhang86038849
Ge Zhang
2 months
I'm extremely excited to announce "the big bomb"!: Neo and Matrix, that we're working on with colleagues and friends from open-source community, , wuhan ai, and . Neo is the first fully-transparent bilingual large language model, with
Tweet media one
8
51
206
11
130
400
@9hills
九原客
3 months
抓取URL,将正文转换为良好的Markdown格式的工具: - jina reader (open source): - - Web-scraper(open source): - code-html-to-markdown: (偏向于更好地处理代码块)
17
104
399
@9hills
九原客
2 years
@laixintao 做了六年运维,运维最重要的并不是自动化,平台化和智能化。 最重要的是标准化,标准的机器,标准的操作系统,标准的基础设施,标准的部署,标准的监控,标准的故障处理流程,标准的高可用方案。 然后建设一个系统或者平台将标准变成代码,固化下来,防止标准退化。
16
56
361
@9hills
九原客
1 year
《State of GPT》的 PPT 已经放出: 最近两周都在做一些大模型生产应用,回过头看这个视频,确实是字字珠玑。建议一定要看一遍。
12
106
359
@9hills
九原客
6 months
成功跑通 33B 4bit GPTQ 模型在单24GB显卡上的 QLora 微调,感谢 LLaMA-Factory! 同时还发现模型参数规模越大,量化损失越小。本地模型场景已经不推荐使用 10B 小模型,建议直接使用30B~70B模型。
21
78
351
@9hills
九原客
1 year
最近密集测试了最新的多款支持中文的模型,做如下推荐: 1. 商用请选择 Aquila 或者 baichuan(需申请)。 2. 预训练模型推荐 baichuan-7B 或 Aquila-7B。 3. 开箱即用的 Chat 模型,推荐 ChatGLM-6B、Aquila-Chat-7B、Ziya-LLaMA-13B-v1.1、WizardLM-30B-V1.0。
Tweet media one
Tweet media two
19
100
334
@9hills
九原客
6 months
对比了多个提供 Embedding 服务的后端,推荐 主要特点: 1. 提供 OpenAI 兼容的 API格式 2. 支持 Reranker 模型以及 API,如 bge-reranker-large。 3. 自带 optimum 优化, CPU 可提供服务。也支持 ct2、fastembed 等后端。 4. 可以方便的打包为 Docker image进行部署。
13
80
316
@9hills
九原客
1 year
使用 llama_index 只需要几行便可以实现 Chat with PDF。用最近比较火的《翦商》测试了下(已购入正版) 不过如果效果要比较好的话,需要调大 similarity_top_k 参数,每次查询的时候上文特别多,特别费 tokens。 notebook: 学习过程中参考了
Tweet media one
20
53
304
@9hills
九原客
1 month
周末仔细拜读了 MAP-Neo 这个国内首个全过程开源大模型的文章,绝对是近几个月读到的最佳论文。 除了100k的中文 SFT 对话数据以及DPO偏好数据(论文中仅提供思路)没有放出外,其他的数据和工具都放出了。
4
93
313
@9hills
九原客
3 months
文章对Llama3 不同量化方法评估了性能损失,结论和之前文章基本一致: 1. 8bit 量化是免费午餐,无损失。 2. AWQ 4bit量化对8B模型来说有2%性能损失,对70B模型只有0.05%性能损失。可以说也是免费午餐了。 3. 参数越大的模型,低bit量化损失越低。AWQ 3bit 70B 也只有2.7%性能损失,完全可接受。
@rohanpaul_ai
Rohan Paul
3 months
" LLAMA3 still suffers non-negligent degradation in these scenarios, especially in ultra-low bit-width. " Very interesting paper in the Large Language Model space named "How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study" 📌 This research dives deep into
Tweet media one
2
43
148
11
80
301
@9hills
九原客
16 days
csdn gitcode 把 github 整体复制了一份,包括star数量、fork数量。 讽刺的是因为搬的反贼仓库太多,现在已经一刀切所有搬过来的仓库都是404了。
Tweet media one
38
28
302
@9hills
九原客
6 months
mlx 是苹果新出的类pytorch 框架,先不提性能比mps好多少,但因为其从零开始,历史包袱和支持的设备少,代码十分简洁。非常适合用来学习模型架构。 以mixstral 为例,transformer的实现有一千多行,但是mlx的实现只有300多行去。
9
57
293
@9hills
九原客
3 months
Claude 3 的文学写作能力很不错,项目 gpt-author 更新了Claude 版本,与GPT-4的版本相比,Prompt 非常简洁(建议对比阅读)。简单到每次迭代只需要告诉模型大纲、写作风格、前序章节即可。
4
63
284
@9hills
九原客
4 months
为了省钱,个人日常使用的有免费额度且有实用价值的大模型服务: - ChatGPT、Claude、Google Bard、Mistral:业界顶流 - Google AIStudio:多模态模型 Gemini Pro 1.5 - Perplexity、Phind、:搜索增强 - 其他:Groq(最快的Mixtral)、Poe等 - 国产:Kimi(长上下文测试ing)
11
50
272
@9hills
九原客
4 months
分享之前的一个colab笔记: Build-GPT-from-Scratch.ipynb,用 Python 从零开始构建一个 GPT 语言模型,笔记写的相对比较简单,但是可以训练可以推理。 同时推荐一本正在写的书: (可以免费查看已出版章节,目前更新到章节4)
Tweet media one
Tweet media two
9
76
268
@9hills
九原客
7 months
Huggingface 模型太大,如果受限于梯子流量或者速度太慢,推荐一个国内镜像站,大部分情况下配置环境变量即可无缝使用。 作者应该也是用爱发电,切勿滥用。实际测试国内家宽满速。 HF_ENDPOINT= python your_script.py
13
63
264
@9hills
九原客
4 months
个人实际体验的模型排序(同一梯队内不分先后): 1.GPT-4-turbo, Claude 3 Opus 2.Gemini Pro 1.0, Claude 3 Sonnet, Mistral Large, ERNIE-4.0 3.Mixtral, gpt-3.5-turbo, Qwen1.5-72B, Deepseek-67B, ERNIE-3.5 4.Yi-34B, ERNIE-Speed 5.5-15B models
28
47
259
@9hills
九原客
1 year
发布《大语言模型(LLM)微调技术笔记》 主要是笔记和项目索引。
Tweet media one
Tweet media two
5
81
244
@9hills
九原客
7 months
韩国人的脑洞也不小,把两个mistral-7B模型各去掉1/4层,然后首尾拼接。进行继续的预训练把接缝抹平做出来10.7B模型,声称性能可以媲美 mixtral moe模型。 模型和论文都放出来了。就是这么暴力。
Tweet media one
17
50
244
@9hills
九原客
3 months
个人快速评测大模型的3个提问: 编码:不使用搜索和工具,设计并使用Python实现流式的JSON解码器,只能使用标准库,代码结构良好。 指令遵循:使用中文以及JSON 格式输出中国城市和主要景点的对应关系,城市为key,景点为列表。输出五个城市,第一个城市一个景点,以此类推。
17
51
246
@9hills
九原客
1 year
为 ChatGLM-6B 以及 中文 Embeddings 模型提供 OpenAI 风格的 API,支持 ngrok 以及 cloudflared tunnel。 目的是为了快速接入OpenAI生态的某些应用。
12
52
235
@9hills
九原客
3 months
找到一个弱智吧的数据集: 看来以后训模型要加一些这些题目了~
Tweet media one
12
28
245
@9hills
九原客
8 months
真正大戏,OpenAI 700名员工中的500+ 发布联名信,要求董事会全体辞职、迎回sam和greg。否则全体辞职并加入微软。 微软已经承诺为所有OpenAI员工保留职位。 如果董事会不妥协、纳德拉做梦都笑醒了,零美元收购700亿估值的OpenAI。
@balajis
Balaji
8 months
500+ OpenAI employees will quit and join Microsoft unless the board resigns and reinstates Sam and Greg.
Tweet media one
444
1K
7K
10
17
237
@9hills
九原客
8 months
某客户领导对我们的大模型提了一个要求:知道自己不知道。 比如一个知识领域,就拿Linux 内核做例子吧。问大模型你在这个领域还有哪些知识点没有掌握,大模型不仅要能答出来,还能主动去搜索和学习。 GPT-4 也不行,感觉这个算AGI的一个环节了。
47
18
234
@9hills
九原客
1 year
论文阅读:FrugalGPT,降低LLM的成本。 常规方法: 1. 优化 Prompt 2. Query 合并 3. 语义相似缓存 4. 使用贵模型对便宜模型微调 LLM 级联:(重点) 5. 便宜模型回答后对回答自动打分,分数过低则调用更贵的模型,直到调用 GPT-4 感觉可以用 LangChain 自己实现一个。
Tweet media one
12
69
225
@9hills
九原客
7 months
LLM 推理服务部署,经过 cog、vllm、fastchat 等尝试,目前看最完善的应该是 OpenLLM,不仅支持 vllm、ctranslate 后端,还支持lora adapter 部署。同时提供OpenAI 兼容 API以及 Docker 镜像构建。 准备深度测试,并切换生产环境为统一的 OpenLLM 方案。
22
38
233
@9hills
九原客
2 months
@lidangzzz 净利润不是这么算的。 哪怕是自家的房子,自家的人工,也要折算成钱算到成本里。
10
0
227
@9hills
九原客
3 months
Llama3的几个核心点: 1. 本体具备中文能力,对话时需要使用Prompt 以后请使用中文回答 来激发。期待社区的ft版本,估计很快。 2. 70B 性能碾压gpt-3.5-turbo,不足GPT-4。 3. 400B 是dense
26
39
227
@9hills
九原客
2 months
现在RAG 不像去年了,去年用embedding、rerank、llm 三重微调,召回 90% 效果震撼客户,客户说没想到还能这么搞。 现在太卷,各种优化方法挨个试,质量要高,速度还要快。端到端准确率要求贼高,也不知道都哪些人在瞎卷。
@iheycc
heycc
2 months
ServiceNow 的 RAG 实践:Reducing hallucination in structured outputs via Retrieval-Augmented Generation 介绍了一种使用 RAG 技术来减少生成式 AI(GenAI)中幻觉现象的方法,并在 workflow 生成任务中应用落地 总结 * 做 RAG 实践并不稀罕,但它的特点是:把 RAG 技术用到 “自然语言描述 -->
Tweet media one
Tweet media two
7
53
202
4
42
222
@9hills
九原客
2 months
Gemini 1.5 Flash的意义可能被低估了。 就不提上下文长度以及多模态,效果只是略逊于Pro,但是价格折人民币只需要0.002 元/千tokens。恐怖如斯! 用在沉浸式翻译上,效果比DeepSeek那好太多了。 目前推荐用OpenRoute的服务,官方API还没有开通付费所以并发很低。
29
37
218
@9hills
九原客
3 months
要不是干了多年 SRE,我就信了。 看到这种框图我就生理上不信任。根据草台班子理论,当你的基础设施和应用架构是一个巨大的草台班子,那么只有真正的AGI 才能拯救你们。
Tweet media one
@xds2000
Tommy Xiao
3 months
基于大模型和多AGENT协同的运维 华为这个思路还是有应用场景的启发的
1
4
26
26
25
218
@9hills
九原客
4 months
关于 RAG 和 Long-context,其实本没有什么需要写的。 但是现在有两种荒谬的论点: 1. Long-context 会替代 RAG; 2. Long-context 能做到的RAG也能做到。 只要做过实际应用的,就知道RAG有很多局限是这个架构解决不了的,也会知道Long-context在某些场景下目前效果依然不如RAG。
24
38
217
@9hills
九原客
1 year
前不久有个论文,描述将生成式 AI 用在虚拟游戏作为NPC,让AI具备记忆能力、行为能力,而且互相之间可以对话。 最近 Langchain 团队参考论文做了一个实现: 希望早日有搭载对应技术的游戏面世。 论文地址在这里:
Tweet media one
6
60
201
@9hills
九原客
1 year
发布《大语言模型(LLM)学习路径和资料汇总》 目前完成了前三个章��。
Tweet media one
6
72
198
@9hills
九原客
1 year
感觉有必要写一个低GPU资源推理的指南,包括CPU、M系列芯片、CPU和GPU协同、量化、多卡等。 可以在消费级硬件上进行高达40B模型的良好体验。 还有低资源训练,PEFT、Qlora等。
21
28
199
@9hills
九原客
1 year
推荐一个 GPT 辅助 Google Sheet/Docs 的工具,非常适合用 GPT 生成大量数据的场景(比如我正在进行的 Prompt 结果自动打分),免的写代码了。 比起同类工具它不收费,只需要提供 API_KEY,建议修改使用的model为 gpt-3.5-turbo 并开启 Cache。
Tweet media one
Tweet media two
17
49
194
@9hills
九原客
1 year
个人感觉 (开源)的模式比 langchain 更适合开发LLM 应用。快速创建了一个通过 ChatGPT 总结网页内容的 API: 使用示例如下(还支持 stream 模式),可以用来方便的开发 LLM API~
Tweet media one
10
43
184
@9hills
九原客
1 year
虽然感觉貌似没啥用,但是还是开源一下,用来给 Prompt 工程师 Debug: llm-playground Prompt 工程师利器,可同时比较多个 Prompts 在多个 LLM 模型上的效果。支持 Prompts 持久化存储。
Tweet media one
5
35
181
@9hills
九原客
2 months
说个暴论,对复杂 Prompt 的厌恶。 很多人会构造复杂的 Prompt 让模型(尤其是能力不行的模型)完成特定任务并为自己 Prompt 的高超技艺而沾沾自喜。 的确,这是一种现实或者折衷,我们甚至还卖这个服务给客户,收费不低。
38
14
193
@9hills
九原客
1 year
推荐一个给ChatGLM-6B 做微调的repo,支持 freeze、ptuning、lora三种微调方法。其中lora效果最好。 实测结果: 单卡V100,Lora 微调 alpaca_gpt4_zh ,40分钟 六卡V100,freeze 微调 alpaca_gpt4_zh,10分钟
7
42
181
@9hills
九原客
1 year
提个问题,目前最好的开源ChatGPT web 客户端以及桌面客户端是什么? web我用过 ChatGPT-Next-Web和Chatbot-ui,更喜欢后者一些。
21
35
183
@9hills
九原客
7 months
接着上次LLM inference 的选择,整理了一个repo。 包括了推理框架、推理后端以及性能评测(吞吐、QPS和首token延迟)。 目前评测只更新了2个,会尽快完成全部测试。
17
36
183
@9hills
九原客
4 months
最近想找一个开源的、数据和测试驱动的Prompt 调试工具。 尝试了基本上能够体验的所有项目,感觉还是 最合适,虽然上手难度略微高了一些。
5
39
183
@9hills
九原客
8 months
在客户蹲坑三天,微调了嵌入模型,对行业知识效果显著。 HitRate @10 (前十召回段落有目标段落)��65%提升到95%。 正在微调重排模型,之前我和客户说检索HitRate @5 能做到95%。客户不相信说自己之前最多做到六十多。
15
18
181
@9hills
九原客
8 months
在测试 Yi-34B-Chat-4Bits,确实能力上秒杀了一众10B模型。 通过vLLM 可以在4090上提供33 tokens/s 生成速度,3 并发稳定生成速度100tokens/s。 从ceval 开发集中挑选最难的数学等,打乱答案顺序后评测。(肯定在训练集中,会高估) Qwen-14B-4bits 34.5%,yi是 52.7%。
15
17
171
@9hills
九原客
1 month
教训:不要和老前辈犟嘴,尤其是你在用人家发明的东西。不过我猜马斯克下的人应该不会在汇报材料里放CNN这种基础的东西,而是写一些高大上点的词汇,导致马斯克没啥概念。 网友笑话:特斯拉的xAI团队正在加班从FSD中移除卷积神经网络。
Tweet media one
12
25
165
@9hills
九原客
4 months
支持中文的30B以上开源模型 国内: - Qwen1.5-72B - Yi-34B - Aquila2-34B、70B-Expr - DeepSeek-coder-33b、Ilm-67b 国外: - dbrx 132B - mixtral 7x8B (中文较弱) - grok-1 314B(性能和mixtral 差不多) - c4ai-command-r-v01(在tool、RAG上表现出色) - Jamba-v0.1 51.6B(尚未测试)
8
25
165
@9hills
九原客
9 months
一个真实生产的 RAG 应用。 模型使用的是 GPT-4,system prompt 高达 3529 个字符。国内想借鉴就比较困难(模型是一个问题,长上下文的理解是另外一个问题)。 但是代码值得一看,有很多生产环境的细节。
@llama_index
LlamaIndex 🦙
9 months
Want to see a real-world RAG app in production? Check out wandbot 🤖 - chat over @weights_biases documentation, integrated with @Discord and @SlackHQ ! (Full credits to @ParamBharat et al.) It contains the following key features that every user should consider: ✅ Periodic data
Tweet media one
Tweet media two
Tweet media three
Tweet media four
5
83
342
6
56
160
@9hills
九原客
2 months
通过 Post-pretrain 的行业大模型可能是一个伪命题。 最近翻阅了 10+ 篇相关论文,结合我们一些实例,发现所谓的行业模型没什么用。 通用模型+ RAG + Prompt 工程 能够做到同样的事情,甚至效果还超出了行业模型。 不过这个地方实在是概念污染太严重,一帮人有意无意的去洗脑客户。
23
17
162
@9hills
九原客
6 months
网易有道新推出 embedding 和 reranker 模型,弥补了中文 reranker 模型只有bge的空白。 最近正在研究embedding和reranker模型的通用sft,之后放出相关实践笔记~
7
41
157
@9hills
九原客
8 months
DALL-E 生成的书法字有模有样的,就是一个字都不认识,感觉是全新的字。用它来创建一门新语言应该很简单。
Tweet media one
30
17
158
@9hills
九原客
2 months
用大模型+多Agent玩剧本杀,记得之前有推油看到那个小镇的论文提到了类似的idea。 一个数据样例: { "script": [ "你是林若彤(歌手)\\n角色简介:\\n女 31岁
Tweet media one
@seclink
Y11
2 months
PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games 点评:大语言模型玩《天黑请闭眼》游戏... 开源地址: 感觉肯定是比不过真正玩家的...
Tweet media one
1
4
13
5
38
157
@9hills
九原客
3 months
国内大模型目前有四个赛道: ToC、ToD(开发者)、ToB、ToG(政府) 其实讯飞碰到的问题也是ToB、ToG 大模型公司的共性问题,目前客户预算都在压缩,且大模型并没有带来行业生产力的革命性改变,造成对营收的贡献较少。 目前反倒是ToC 以及 ToD 风头十足,但是大模型的成本较高,以moonshot
14
42
157
@9hills
九原客
1 year
Langchain 目前有如下优点: 1. API稳定,不像llama_index老是break change。 2. 社区广泛,连OpenAI cookbook 都引入了langchain的例子。 3. 有Langchain-JS,从而将内卷严重的前端社区包含在内,蓬勃发展。 目前如果要开发基于LLM的应用,推荐使用LangChain。
@pwang_szn
peter! 🥷
1 year
Here's all you need to learn to master @LangChainAI . 🧙 • Indexes • Agents • Models • Chains Here's the breakdown (hope it helps!):
Tweet media one
24
129
875
5
51
150
@9hills
九原客
1 year
没想到有人不相信低资源推理的可行性。 用WizardLM-30B参数模型在4090 24 GB 显卡上,使用 GPTQ 4bit量化。这个速度大家满意么。 控制台显示速度:14.11 tokens/s 显存占用:20333MiB / 24564MiB
@9hills
九原客
1 year
感觉有必要写一个低GPU资源推理的指南,包括CPU、M系列芯片、CPU和GPU协同、量化、多卡等。 可以在消费级硬件上进行高达40B模型的良好体验。 还有低资源训练,PEFT、Qlora等。
21
28
199
8
31
150
@9hills
九原客
2 months
现在RAG 中检索的核心是分离要召回的段落和其对应的知识点(或者叫索引文本)。 比如段落1500字,对应的知识点有3个500字拆分、整个段落的总结、自动生成的QA对等。只要语义相似度/关键词命中任意知识点则召回整个段落。 在这个基础上可以做很多检索层面的优化。 fastgpt 采用此种思路,效果不错。
20
22
146
@9hills
九原客
3 months
开源模型 Top: Mistral-8x22B Command R Plus 已经和国产顶级闭源模型水平持平(如GLM4、Kimi等),只是在中文的特定领域还不行(文案写作、古诗词等)。 没觉得开源模型会越来越落后啊😓
13
11
144
@9hills
九原客
1 year
ChatGLM2-6B 模型放出: 1. 可以申请商用 2. 上下文有效扩充到 8K(32K支持尚不好) 3. MMLU、CEval、GSM8K 、BBH 等数据集上的性能取得了大幅度的提升(主要提升了数学、逻辑、知识推理、长文档理解能力)
4
41
137
@9hills
九原客
1 year
控制 WebPilot 插件的行为,实现精准搜索。 1. 注意看tbs参数,可以控制时间范围。 2. 强制使用英文搜索,质量更高。 我不喜欢Browsing 插件,因为经常多次点击超时,WebPilot 很好。
Tweet media one
@circleghost0723
李元魁
1 year
【 我把 ChatGPT 加上了 Google 瀏覽的功能!!!】 一開始我原本是要介紹 Perfect 這個 Plugin,它能將人們輸入的 Prompt 補充足夠的脈絡及背景資訊,讓回應結果變的更好。 然後我發現 Perfect + WebPilot(讀取網址用的 Plugin)太厲害,我可以只用一句話:『perfect 給我過去一天內3則重要的 AI
Tweet media one
34
98
337
9
40
140
@9hills
九原客
19 days
Langchain 和 LlamaIndex 自诞生以来就充斥着争议。我的看法: 1. 产品原型或者 Demo:使用 Dify、Coze 这种低代码平台或者 LangChain、AutoGen 等框架快速搭建。能够极大的提升创新效率。 2. 正式生产环境:自行实现且不考虑过多的封装和扩展。
9
25
142
@9hills
九原客
4 months
论文阅读:LLaMA-Factory 也发论文了,恭喜。 论文比较了不同的ft方法的内存、速度、PPL和实际效果指标。结论: 1. 速度最快,效果最好的微调方法是 LoRA 2. 内存占用最小的微调方法是 QLoRA,效果和LoRA 基本一样。
Tweet media one
5
21
142
@9hills
九原客
1 month
大模型时代其实对没有钱的科研团队很残酷。 为什么微调、RAG、Agent这种文章现在爆发,但是模型结构、预训练的文章寥寥无几?前者便宜啊,有个显卡就能搞。 后者没有上千万的资金你都没法开始。
11
19
134
@9hills
九原客
2 months
如果把大模型看作CPU,Prompt 应该是指令集架构;上下文窗口可以视为CPU内的高速缓存;短期记忆和外部知识都可以用RAG的方法注入。 通用模型的一个困难是没有固定模式的Prompt 范式来体现模型能力。相信调试过多模型应用的都能理解。这方面 dspy 值得关注。 图片为原创,部分参考网上的类似想法。
Tweet media one
7
20
131
@9hills
九原客
1 year
拿到了科大讯飞的大模型测试资格,和文心、ChatGLM130B、通义千问在一个水平。 PR吹的接近GPT3.5简直就是搞笑。 目前国内的大模型因为有很好的进行指令微调,所以问答就都还行。但是CoT思维链以及逻辑能力都不咋地。 这也导致ChatGLM130B竟然只ChatGLM6B强一些而已。
15
8
126
@9hills
九原客
9 months
目前英文 7B 规模的 SOTA 模型是 zephyr-7b-beta。它放弃了质量参差不齐的开源数据集,使用ChatGPT和GPT-4 全新标注了 UltraChat 和 UltraFeedback 数据集(已开源)。是 llama-index 项目实测出来唯一能够支持 Agent 的小参数模型。 与之相比,中文开源模型虽多,数据集却很少开源。
Tweet media one
Tweet media two
5
30
124
@9hills
九原客
8 months
Rerank 模型对 RAG 应用的效果提升很明显,我在某非常简单的测试集中,检索命中率从 90% 提升到 97%。 逻辑是先用 Retrieval 选 Top N,然后用 Rerank 选 Top K(典型值 N = 30, K = 5)。 Rerank 可选的有开源 bge-reranker 模型(可以运行在 CPU 上),闭源 cohere-rerank 模型。
@llama_index
LlamaIndex 🦙
8 months
Which mix of embeddings/rerankers works best for RAG? Thanks to @ravithejads , we’ve created our most comprehensive survey yet, analyzing 7 SOTA embedding models and 3 rerankers 🔥. Best of all, the full Colab notebook is provided so you can 1) auto-generate an eval dataset, and
Tweet media one
15
59
320
3
35
124
@9hills
九原客
3 months
赞同,我就用随手搜的 AIOps 的图来举个例子。 第一张是 PageDuty 的,第二张是亚信的,第三张是阿里的。 后两个框图的有效信息含量就是0。
Tweet media one
Tweet media two
Tweet media three
@watert
waterwu
3 months
我的思路是,足够简单的系统才是足够可靠的,好的系统应该有尽可能简单的核心,再基于这个核心做外围支持。而违背了这个原则的各类框图,我都更倾向于怀疑甚至批判态度。
4
7
52
10
25
121
@9hills
九原客
3 months
说说功能架构图,个人理解是将需求在功能上拆解为功能组件和单元的过程。 一种是系统级别的,画功能流程图(图1来自欧空局)就足够了。模块十几个已经是比较复杂的场景。 还有一种是像ERP这种复杂系统,需要一个总的功能架构,那么画图二(每个小框都是一个功能组件)。 那么: 1.
Tweet media one
Tweet media two
@9hills
九原客
3 months
@ifuteng 后两张图也不是所谓的《功能架构图》。 以阿里那张图为例,请问《专家经验》是什么功能?
3
0
1
2
33
122
@9hills
九原客
8 months
在职业高管眼里,普通员工可能只是一个素材,你不干有的是人干。爱滚滚。 时势造英雄,AGI的时代,OpenAI 的员工向高管们说:没有我们,你们什么也不是! 这TM才是不可替代性。
3
9
117
@9hills
九原客
6 months
(1/3) 经过几天的测试,大尺寸模型(如deepseek-33b、qwen-72b)的微调选择: 1. 16bit 模型 + Lora + 单卡:不可能,超出了目前最大单卡 80G 显存。 2. 16bit 模型 + QLora + 单卡:4096 序列长度,33B应该需要33G 左右显存,72B需要 70G 左右显存。超过了消费级显卡能力。
10
25
117
@9hills
九原客
1 year
简单汇总了下资料,没时间写指南了。可以具体点到资料中看具体实现。 只包括推理,低资源训练和微调以后再补充。
@9hills
九原客
1 year
感觉有必要写一个低GPU资源推理的指南,包括CPU、M系列芯片、CPU和GPU协同、量化、多卡等。 可以在消费级硬件上进行高达40B模型的良好体验。 还有低资源训练,PEFT、Qlora等。
21
28
199
1
28
118
@9hills
九原客
7 months
mistral 还是厉害,现在lmsys elo 比较高的7B模型,包括openchat、starling、openhermes、zephyr 都是以 mistral 为基座模型。 而且实测用中文prompt 进行sft,也有良好的表现。 目前我们新的7B模型的base,已经全部切换为mistral。
12
15
119
@9hills
九原客
6 months
学习了下从零构建decoder-only 的GPT2模型。代码不多,能够很好的学习模型架构。 我的笔记如下: 图中是在6个句子下训练的模型的推理效果,仅是一个示例。
Tweet media one
4
26
115
@9hills
九原客
7 months
AirLLM,用4G显存运行70B模型。 其原理就是仅加载需要计算的那一层权重到显存。 可谨慎测试,推理一个token就要把全量权重从SSD加载到显存一次。
17
23
117
@9hills
九原客
1 year
不要使用 iCloud 同步 Obsidian 等任何需要多端修改的东西,你会变得不幸! 最佳方案:Git + Git-LFS ,至少冲突还可以手动解决而不是默默消失。
33
11
115
@9hills
九原客
11 months
通义千问开源 7B 模型: 1. Chat模型的prompt使用了OpenAI的ChatML格式。 2. 月活 1亿用户以内,免费商用。 3. 模型在 ceval,mmlu,humaneval等多个评测集中取得10B量级模型的 SOTA。 4. 上下文支持 8K。 5. 架构参考了 LLaMA。 诚意不错,需要进一步测试。
10
25
112
@9hills
九原客
1 year
根据 Chinese-LLaMA-Alpaca 的示例,不严谨的评测了下 ChatGLM 6B 非量化版本 vs 中文Alpaca-7B vs 中文Alpaca-13B。 个人综合评分,ChatGLM 6B > 中文Alpaca-13B > 中文Alpaca-7B。
13
22
111
@9hills
九原客
11 months
该模型基于 LLaMA2 微调,具备 OpenAI Function Call 功能。目前数据集和训练过程还没有完全公开。
3
31
110
@9hills
九原客
1 year
刚看了 InternLM大模型,中文名《书生·浦语》的技术报告。几个亮点: 1. 104B 参数,和主流优秀 LLM 持平。 2. SFT,RM,RHLF 复刻ChatGPT,特别是RHLF目前开源模型应用的很少。 3. 在中英文测试集上有超过ChatGPT(3.5)的表现。(典型如高考测试集)
8
22
100
@9hills
九原客
28 days
大模型评估分为应用级评估和模型级评估。对已有开源框架做个简单推荐。
Tweet media one
2
27
110
@9hills
九原客
2 months
可能很多人不知道现在的竞业协议被滥用到什么程度。 不仅仅是入职前签署,还可以做一个骚操作。 不发竞业补偿金,对的,不发不代表竞业无效。离职后告诉你竞业启动但是不发补偿金,过去半年你要是违反竞业就补发一个补偿金然后起诉你;你要是没入职就继续不发。
@9hills
九原客
2 months
@amehochan 竞业协议现在是入职前签署,我碰到的互联网大点的公司都要签,不签找不到工作啊。 离职的时候你就没有选择权了,那时候签的只是竞业启动的知情函,法律上你不签公司也可以单方面启动。
5
3
62
19
22
103
@9hills
九原客
11 months
发布一个小小的开源项目: 主要是将国产的 API-based 模型转换为 OpenAI 的API格式,从而方便进行测试和评估。目前支持 MiniMax、文心一言以及智谱ChatGLM。
10
27
103
@9hills
九原客
1 year
看了下LangChain 实现的OpenAI Functions的代码,还是比较巧妙的。外部使用代码没有什么变化,而是在LLM model封装上下功夫。 相同的代码,如调用的是OpenAI Chat模型,那就开启function,如果是其他模型,就是别的实现。从而保证兼容性。
0
20
98