九原客 @9hills Twitter profile

Last Seen Profiles

@Matheus_gk01

@KasihLudah

@Smartydraws

@vermichaelli

@mmdbdllhlqdry1

@Rick_Dalton69

@FerrumNetwork

@aerisephs

@bokeplokalmalam

@drAHzhrani

@MeMme8504

@o1chan0319

@Grace4NY

@alexbhturnbull

@MyArtOfPolitics

@tobyhaarer6

@bokeplokalmalam

@Ceyein

@RC_EnwauLleoedd

@Hellsing1258317

@lavenderghostco

@jbhandmade

@pravoceedoutora

@tutemoroni

@DetailersKenya

@P4N18

@OurLesbian_69

@Nicoolahsz

@pengen_stw

@davidalim

@wis771

@pengen_stw

@jamal_nabulsi

@stwmaniax

@localfirstconf

@yukoyy

九原客

@9hills

3 months

这个大神也是神人。年薪上千万刀的工作也不做，就出各种LLM学习的项目和视频，质量也是天花板。如下视频也是我见过最好的大模型介绍，不亚于一篇最好的大模型综述。

State of GPT | BRK216HFS

Learn about the training pipeline of GPT assistants like ChatGPT, from tokenization to pretraining, supervised finetuning, and Reinforcement Learning from Hu...

www.youtube.com

Andrej Karpathy

@karpathy

3 months

Have you ever wanted to train LLMs in pure C without 245MB of PyTorch and 107MB of cPython? No? Well now you can! With llm.c: To start, implements GPT-2 training on CPU/fp32 in only ~1,000 lines of clean code. It compiles and runs instantly, and exactly

307

2K

13K

41

400

1K

九原客

@9hills

2 months

有同学问我如何快速零基础了解大模型原理。我一般会推荐这套视频，可视化做的非常的棒，总共也就三个小时，不仅适合了解，也是很不错的入门。

Neural networks

Learn the basics of neural networks and backpropagation, one of the most important algorithms for the modern world.

www.youtube.com

32

369

1K

九原客

@9hills

1 year

可能是迄今为止大语言模型最好的中文综述（学术向）哪怕是做大语言模型应用，也应该粗略了解，否则很多术语和背景无法理解。综述不需要太多的AI背景，应该都能看懂。

29

269

827

九原客

@9hills

3 months

看论文看到哈哈大笑，用「弱智吧」标题+GPT-4回答微调后的Yi-34B模型评估结果超过了精心收集的 SFT 指令集数据，安全性评估也是第二名。弱智吧就是百度弱智吧，里面的帖子是这种画风：「既然监狱里全是罪犯，👮♀️为什么不去监狱里抓人？」论文：

44

171

855

九原客

@9hills

2 months

上次给同学推荐了快速了解大模型的视频，有另外的同学说他想系统的学习大语言模型。我推荐这本书，适合有一定基础，愿意深入了解大模型知识的同学。

GitHub - LLMBook-zh/LLMBook-zh.github.io: 《大语言模型》作者：赵鑫，李军毅，周昆，唐天一，文继荣

《大语言模型》作者：赵鑫，李军毅，周昆，唐天一，文继荣. Contribute to LLMBook-zh/LLMBook-zh.github.io development by creating an account on GitHub.

github.com

9

204

827

九原客

@9hills

3 months

最新开源模型选择个人推荐（超过40B的建议购买API服务，其他则建议自行int4部署）。中文 RAG 选择 CommandR+ Agent/FunctionCalling 使用 Llama3-70B 或 CommandR+ 中文文案写作用Qwen-72B，语言更Local一些。特定任务的小参数微调base模型用 Llama3-8B 或 Mistral-7B 大参数微调base 模型用 Yi-34B

35

204

789

九原客

@9hills

4 months

Claude 3 Opus + ChainForge，明显提升了 Prompt 编写效率。工作流： 1. 手动编写测试用例种子和原始 Prompt。 2. 让 Claude 3 根据 Prompt和种子，生成大量测试用例。 3. 在 ChainForge 上构建 workflow，尤其是测试。 4. 让 Claude 3 迭代 Prompt。 5. 不断的测试，拿到最好的效果。

20

154

678

九原客

@9hills

2 years

踩坑，http(s)_proxy 和 HTTP(S)_PROXY 有很大的区别。

28

129

615

九原客

@9hills

24 days

大模型现在被某些人吹为新一轮的技术革命。但是对行业带来的技术革命和生产力的提升到底是什么？问答？写作？这种其实都不是企业的核心业务流。做了一年多大模型落地，是越来越困惑了。

185

60

526

九原客

@9hills

1 year

ChatGPT 目前各类应用都非常内卷。最近用 Immersive Translate Chrome 插件替换了 OpenAI Translator 插件。前者的优点是提供沉浸式的双语对照翻译，能够较大的提高阅读效率。同时还提供epub、pdf等翻译功能。插件地址：

23

147

482

九原客

@9hills

1 year

搞了一个 Colab 上运行的 ChatGLM OpenAI API。这样就可以利用任意 OpenAI 客户端（如 OpenCat）来调用 ChatGLM 啦（目前 API 用的 ngrok 的临时 URL）后续会开个 Repo，支持开源 Embeddings 、Cloudflare Tunnel 以及微调模型。

34

116

493

九原客

@9hills

7 months

RAG 综述，建议每个做大模型应用的都读下。非常不错的总结。

Retrieval-Augmented Generation for Large Language Models: A Survey

Large Language Models (LLMs) showcase impressive capabilities but encounter challenges like hallucination, outdated knowledge, and non-transparent, untraceable reasoning processes....

arxiv.org

21

131

486

九原客

@9hills

3 months

把Github Copilot 订阅停了，尝试了三个免费的替代： Codeium：不能更换模型，但可以免费无限使用。 Tabnine：开源，支持本地模型。：开源，支持本地和API模型。但是Tab补全推荐使用sft后的本地模型。目前以Codeium 和Continue配合，前者用于tab补全，后者替代Copilot Chat

Continue

Amplified developers, automated development · Customize and optimize each component of your AI dev system · Accelerate your development with Continue · Fit

www.continue.dev

40

105

490

九原客

@9hills

1 year

Claude 的Prompt 指南，但是写的很好，可以用到ChatGPT里，针对chat类llm。

Welcome to Claude - Anthropic

Claude is a highly performant, trustworthy, and intelligent AI platform built by Anthropic. Claude excels at tasks involving language, reasoning, analysis, coding, and more.

docs.anthropic.com

17

114

426

九原客

@9hills

2 months

！！真正的全过程开源的中英文双语大模型。 1. 4.7T tokens 的中英文清洗后语料，配比挺合理。 2. 扫描PDF 转 Markdown 的工作流，可以识别图片、表格和公式！！！ 3. 中英文的预训练数据处理 Pipeline，拿来即用～ 4. 最终的 7B

m-a-p/Matrix · Datasets at Hugging Face

huggingface.co

Ge Zhang

@GeZhang86038849

2 months

I'm extremely excited to announce "the big bomb"!: Neo and Matrix, that we're working on with colleagues and friends from open-source community, , wuhan ai, and . Neo is the first fully-transparent bilingual large language model, with

8

51

206

11

130

400

九原客

@9hills

3 months

抓取URL，将正文转换为良好的Markdown格式的工具： - jina reader (open source): - - Web-scraper(open source): - code-html-to-markdown: （偏向于更好地处理代码块）

GitHub - jina-ai/reader: Convert any URL to an LLM-friendly input with a simple prefix https://r....

Convert any URL to an LLM-friendly input with a simple prefix https://r.jina.ai/ - jina-ai/reader

github.com

17

104

399

九原客

@9hills

2 years

@laixintao 做了六年运维，运维最重要的并不是自动化，平台化和智能化。最重要的是标准化，标准的机器，标准的操作系统，标准的基础设施，标准的部署，标准的监控，标准的故障处理流程，标准的高可用方案。然后建设一个系统或者平台将标准变成代码，固化下来，防止标准退化。

16

56

361

九原客

@9hills

1 year

《State of GPT》的 PPT 已经放出：最近两周都在做一些大模型生产应用，回过头看这个视频，确实是字字珠玑。建议一定要看一遍。

State of GPT | BRK216HFS

Learn about the training pipeline of GPT assistants like ChatGPT, from tokenization to pretraining, supervised finetuning, and Reinforcement Learning from Hu...

www.youtube.com

12

106

359

九原客

@9hills

6 months

成功跑通 33B 4bit GPTQ 模型在单24GB显卡上的 QLora 微调，感谢 LLaMA-Factory！同时还发现模型参数规模越大，量化损失越小。本地模型场景已经不推荐使用 10B 小模型，建议直接使用30B～70B模型。

GitHub - hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMs

Unify Efficient Fine-Tuning of 100+ LLMs. Contribute to hiyouga/LLaMA-Factory development by creating an account on GitHub.

github.com

21

78

351

九原客

@9hills

1 year

最近密集测试了最新的多款支持中文的模型，做如下推荐： 1. 商用请选择 Aquila 或者 baichuan（需申请）。 2. 预训练模型推荐 baichuan-7B 或 Aquila-7B。 3. 开箱即用的 Chat 模型，推荐 ChatGLM-6B、Aquila-Chat-7B、Ziya-LLaMA-13B-v1.1、WizardLM-30B-V1.0。

19

100

334

九原客

@9hills

6 months

对比了多个提供 Embedding 服务的后端，推荐主要特点： 1. 提供 OpenAI 兼容的 API格式 2. 支持 Reranker 模型以及 API，如 bge-reranker-large。 3. 自带 optimum 优化， CPU 可提供服务。也支持 ct2、fastembed 等后端。 4. 可以方便的打包为 Docker image进行部署。

GitHub - michaelfeil/infinity: Infinity is a high-throughput, low-latency REST API for serving...

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of text-embedding models and frameworks. - michaelfeil/infinity

github.com

13

80

316

九原客

@9hills

1 year

使用 llama_index 只需要几行便可以实现 Chat with PDF。用最近比较火的《翦商》测试了下（已购入正版）不过如果效果要比较好的话，需要调大 similarity_top_k 参数，每次查询的时候上文特别多，特别费 tokens。 notebook: 学习过程中参考了

20

53

304

九原客

@9hills

1 month

周末仔细拜读了 MAP-Neo 这个国内首个全过程开源大模型的文章，绝对是近几个月读到的最佳论文。除了100k的中文 SFT 对话数据以及DPO偏好数据（论文中仅提供思路）没有放出外，其他的数据和工具都放出了。

MAP-Neo: Highly Capable and Transparent Bilingual Large Language...

Large Language Models (LLMs) have made great strides in recent years to achieve unprecedented performance across different tasks. However, due to commercial interest, the most competitive models...

arxiv.org

4

93

313

九原客

@9hills

3 months

文章对Llama3 不同量化方法评估了性能损失，结论和之前文章基本一致： 1. 8bit 量化是免费午餐，无损失。 2. AWQ 4bit量化对8B模型来说有2%性能损失，对70B模型只有0.05%性能损失。可以说也是免费午餐了。 3. 参数越大的模型，低bit量化损失越低。AWQ 3bit 70B 也只有2.7%性能损失，完全可接受。

Rohan Paul

@rohanpaul_ai

3 months

" LLAMA3 still suffers non-negligent degradation in these scenarios, especially in ultra-low bit-width. " Very interesting paper in the Large Language Model space named "How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study" 📌 This research dives deep into

2

43

148

11

80

301

九原客

@9hills

16 days

csdn gitcode 把 github 整体复制了一份，包括star数量、fork数量。讽刺的是因为搬的反贼仓库太多，现在已经一刀切所有搬过来的仓库都是404了。

38

28

302

九原客

@9hills

6 months

mlx 是苹果新出的类pytorch 框架，先不提性能比mps好多少，但因为其从零开始，历史包袱和支持的设备少，代码十分简洁。非常适合用来学习模型架构。以mixstral 为例，transformer的实现有一千多行，但是mlx的实现只有300多行去。

9

57

293

九原客

@9hills

3 months

Claude 3 的文学写作能力很不错，项目 gpt-author 更新了Claude 版本，与GPT-4的版本相比，Prompt 非常简洁（建议对比阅读）。简单到每次迭代只需要告诉模型大纲、写作风格、前序章节即可。

GitHub - mshumer/gpt-author

Contribute to mshumer/gpt-author development by creating an account on GitHub.

github.com

4

63

284

九原客

@9hills

4 months

为了省钱，个人日常使用的有免费额度且有实用价值的大模型服务： - ChatGPT、Claude、Google Bard、Mistral：业界顶流 - Google AIStudio：多模态模型 Gemini Pro 1.5 - Perplexity、Phind、：搜索增强 - 其他：Groq（最快的Mixtral）、Poe等 - 国产：Kimi（长上下文测试ing）

Devv AI

Devv - The next generation AI search engine for developers. Solve your programming problems in seconds.

devv.ai

11

50

272

九原客

@9hills

4 months

分享之前的一个colab笔记: Build-GPT-from-Scratch.ipynb，用 Python 从零开始构建一个 GPT 语言模型，笔记写的相对比较简单，但是可以训练可以推理。同时推荐一本正在写的书：（可以免费查看已出版章节，目前更新到章节4）

9

76

268

九原客

@9hills

7 months

Huggingface 模型太大，如果受限于梯子流量或者速度太慢，推荐一个国内镜像站，大部分情况下配置环境变量即可无缝使用。作者应该也是用爱发电，切勿滥用。实际测试国内家宽满速。 HF_ENDPOINT= python your_script.py

13

63

264

九原客

@9hills

4 months

个人实际体验的模型排序（同一梯队内不分先后）： 1.GPT-4-turbo, Claude 3 Opus 2.Gemini Pro 1.0, Claude 3 Sonnet, Mistral Large, ERNIE-4.0 3.Mixtral, gpt-3.5-turbo, Qwen1.5-72B, Deepseek-67B, ERNIE-3.5 4.Yi-34B, ERNIE-Speed 5.5-15B models

28

47

259

九原客

@9hills

1 year

发布《大语言模型（LLM）微调技术笔记》主要是笔记和项目索引。

5

81

244

九原客

@9hills

7 months

韩国人的脑洞也不小，把两个mistral-7B模型各去掉1/4层，然后首尾拼接。进行继续的预训练把接缝抹平做出来10.7B模型，声称性能可以媲美 mixtral moe模型。模型和论文都放出来了。就是这么暴力。

17

50

244

九原客

@9hills

3 months

个人快速评测大模型的3个提问：编码：不使用搜索和工具，设计并使用Python实现流式的JSON解码器，只能使用标准库，代码结构良好。指令遵循：使用中文以及JSON 格式输出中国城市和主要景点的对应关系，城市为key，景点为列表。输出五个城市，第一个城市一个景点，以此类推。

17

51

246

九原客

@9hills

1 year

为 ChatGLM-6B 以及中文 Embeddings 模型提供 OpenAI 风格的 API，支持 ngrok 以及 cloudflared tunnel。目的是为了快速接入OpenAI生态的某些应用。

GitHub - ninehills/chatglm-openai-api: Provide OpenAI style API for ChatGLM-6B and Chinese Embedd...

Provide OpenAI style API for ChatGLM-6B and Chinese Embeddings Model - ninehills/chatglm-openai-api

github.com

12

52

235

九原客

@9hills

3 months

找到一个弱智吧的数据集：看来以后训模型要加一些这些题目了～

12

28

245

九原客

@9hills

8 months

真正大戏，OpenAI 700名员工中的500+ 发布联名信，要求董事会全体辞职、迎回sam和greg。否则全体辞职并加入微软。微软已经承诺为所有OpenAI员工保留职位。如果董事会不妥协、纳德拉做梦都笑醒了，零美元收购700亿估值的OpenAI。

Balaji

@balajis

8 months

500+ OpenAI employees will quit and join Microsoft unless the board resigns and reinstates Sam and Greg.

444

1K

7K

10

17

237

九原客

@9hills

8 months

某客户领导对我们的大模型提了一个要求：知道自己不知道。比如一个知识领域，就拿Linux 内核做例子吧。问大模型你在这个领域还有哪些知识点没有掌握，大模型不仅要能答出来，还能主动去搜索和学习。 GPT-4 也不行，感觉这个算AGI的一个环节了。

47

18

234

九原客

@9hills

1 year

论文阅读：FrugalGPT，降低LLM的成本。常规方法： 1. 优化 Prompt 2. Query 合并 3. 语义相似缓存 4. 使用贵模型对便宜模型微调 LLM 级联：（重点） 5. 便宜模型回答后对回答自动打分，分数过低则调用更贵的模型，直到调用 GPT-4 感觉可以用 LangChain 自己实现一个。

12

69

225

九原客

@9hills

7 months

LLM 推理服务部署，经过 cog、vllm、fastchat 等尝试，目前看最完善的应该是 OpenLLM，不仅支持 vllm、ctranslate 后端，还支持lora adapter 部署。同时提供OpenAI 兼容 API以及 Docker 镜像构建。准备深度测试，并切换生产环境为统一的 OpenLLM 方案。

22

38

233

九原客

@9hills

2 months

@lidangzzz 净利润不是这么算的。哪怕是自家的房子，自家的人工，也要折算成钱算到成本里。

10

0

227

九原客

@9hills

3 months

Llama3的几个核心点： 1. 本体具备中文能力，对话时需要使用Prompt 以后请使用中文回答来激发。期待社区的ft版本，估计很快。 2. 70B 性能碾压gpt-3.5-turbo，不足GPT-4。 3. 400B 是dense

26

39

227

九原客

@9hills

1 year

发布博客：《大语言模型（LLM）后训练数据准备相关笔记》介绍最近进行 LLM 微调和二次预训练过程中，阅读的数据准备相关文章的相关笔记，包括少量实践经验。水平比较低，仅供参考。

本文是对 LLM 进行微调以及二次预训练时，阅读数据训练相关文章的一些学习笔记，包含极少的经验总结。参考资料： Streamlining Data Preparation for Fine tuning of Large Language Models Processing Data for Large Language Models OpenAI Fine-tuning Docs 0x0...

github.com

8

62

217

九原客

@9hills

2 months

现在RAG 不像去年了，去年用embedding、rerank、llm 三重微调，召回 90% 效果震撼客户，客户说没想到还能这么搞。现在太卷，各种优化方法挨个试，质量要高，速度还要快。端到端准确率要求贼高，也不知道都哪些人在瞎卷。

heycc

@iheycc

2 months

ServiceNow 的 RAG 实践：Reducing hallucination in structured outputs via Retrieval-Augmented Generation 介绍了一种使用 RAG 技术来减少生成式 AI（GenAI）中幻觉现象的方法，并在 workflow 生成任务中应用落地总结 * 做 RAG 实践并不稀罕，但它的特点是：把 RAG 技术用到 “自然语言描述 -->

7

53

202

4

42

222

九原客

@9hills

2 months

Gemini 1.5 Flash的意义可能被低估了。就不提上下文长度以及多模态，效果只是略逊于Pro，但是价格折人民币只需要0.002 元/千tokens。恐怖如斯！用在沉浸式翻译上，效果比DeepSeek那好太多了。目前推荐用OpenRoute的服务，官方API还没有开通付费所以并发很低。

29

37

218

九原客

@9hills

3 months

要不是干了多年 SRE，我就信了。看到这种框图我就生理上不信任。根据草台班子理论，当你的基础设施和应用架构是一个巨大的草台班子，那么只有真正的AGI 才能拯救你们。

Tommy Xiao

@xds2000

3 months

基于大模型和多AGENT协同的运维华为这个思路还是有应用场景的启发的

1

4

26

25

218

九原客

@9hills

4 months

关于 RAG 和 Long-context，其实本没有什么需要写的。但是现在有两种荒谬的论点： 1. Long-context 会替代 RAG； 2. Long-context 能做到的RAG也能做到。只要做过实际应用的，就知道RAG有很多局限是这个架构解决不了的，也会知道Long-context在某些场景下目前效果依然不如RAG。

24

38

217

九原客

@9hills

1 year

前不久有个论文，描述将生成式 AI 用在虚拟游戏作为NPC，让AI具备记忆能力、行为能力，而且互相之间可以对话。最近 Langchain 团队参考论文做了一个实现：希望早日有搭载对应技术的游戏面世。论文地址在这里：

6

60

201

九原客

@9hills

1 year

发布《大语言模型（LLM）学习路径和资料汇总》目前完成了前三个章��。

6

72

198

九原客

@9hills

1 year

感觉有必要写一个低GPU资源推理的指南，包括CPU、M系列芯片、CPU和GPU协同、量化、多卡等。可以在消费级硬件上进行高达40B模型的良好体验。还有低资源训练，PEFT、Qlora等。

21

28

199

九原客

@9hills

1 year

推荐一个 GPT 辅助 Google Sheet/Docs 的工具，非常适合用 GPT 生成大量数据的场景（比如我正在进行的 Prompt 结果自动打分），免的写代码了。比起同类工具它不收费，只需要提供 API_KEY，建议修改使用的model为 gpt-3.5-turbo 并开启 Cache。

17

49

194

九原客

@9hills

1 year

个人感觉（开源）的模式比 langchain 更适合开发LLM 应用。快速创建了一个通过 ChatGPT 总结网页内容的 API：使用示例如下（还支持 stream 模式），可以用来方便的开发 LLM API～

10

43

184

九原客

@9hills

1 year

虽然感觉貌似没啥用，但是还是开源一下，用来给 Prompt 工程师 Debug： llm-playground Prompt 工程师利器，可同时比较多个 Prompts 在多个 LLM 模型上的效果。支持 Prompts 持久化存储。

5

35

181

九原客

@9hills

2 months

说个暴论，对复杂 Prompt 的厌恶。很多人会构造复杂的 Prompt 让模型（尤其是能力不行的模型）完成特定任务并为自己 Prompt 的高超技艺而沾沾自喜。的确，这是一种现实或者折衷，我们甚至还卖这个服务给客户，收费不低。

38

14

193

九原客

@9hills

1 year

推荐一个给ChatGLM-6B 做微调的repo，支持 freeze、ptuning、lora三种微调方法。其中lora效果最好。实测结果：单卡V100，Lora 微调 alpaca_gpt4_zh ，40分钟六卡V100，freeze 微调 alpaca_gpt4_zh，10分钟

GitHub - hiyouga/ChatGLM-Efficient-Tuning: Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调

Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调 - hiyouga/ChatGLM-Efficient-Tuning

github.com

7

42

181

九原客

@9hills

1 year

提个问题，目前最好的开源ChatGPT web 客户端以及桌面客户端是什么？ web我用过 ChatGPT-Next-Web和Chatbot-ui，更喜欢后者一些。

21

35

183

九原客

@9hills

2 months

十七种 AI 交互范式和各种例子，做大模型应用的推荐了解下。

The Shape of AI | UX Patterns for Artificial Intelligence Design

Exploring how patterns and experiences will change in a world driven by Artificial Intelligence

www.shapeof.ai

8

65

187

九原客

@9hills

7 months

接着上次LLM inference 的选择，整理了一个repo。包括了推理框架、推理后端以及性能评测（吞吐、QPS和首token延迟）。目前评测只更新了2个，会尽快完成全部测试。

GitHub - ninehills/llm-inference-benchmark: LLM Inference benchmark

LLM Inference benchmark. Contribute to ninehills/llm-inference-benchmark development by creating an account on GitHub.

github.com

17

36

183

九原客

@9hills

4 months

最近想找一个开源的、数据和测试驱动的Prompt 调试工具。尝试了基本上能够体验的所有项目，感觉还是最合适，虽然上手难度略微高了一些。

GitHub - ianarawjo/ChainForge: An open-source visual programming environment for battle-testing...

An open-source visual programming environment for battle-testing prompts to LLMs. - ianarawjo/ChainForge

github.com

5

39

183

九原客

@9hills

8 months

在客户蹲坑三天，微调了嵌入模型，对行业知识效果显著。 HitRate @10 （前十召回段落有目标段落）��65%提升到95%。正在微调重排模型，之前我和客户说检索HitRate @5 能做到95%。客户不相信说自己之前最多做到六十多。

15

18

181

九原客

@9hills

8 months

在测试 Yi-34B-Chat-4Bits，确实能力上秒杀了一众10B模型。通过vLLM 可以在4090上提供33 tokens/s 生成速度，3 并发稳定生成速度100tokens/s。从ceval 开发集中挑选最难的数学等，打乱答案顺序后评测。（肯定在训练集中，会高估） Qwen-14B-4bits 34.5%，yi是 52.7%。

15

17

171

九原客

@9hills

1 month

教训：不要和老前辈犟嘴，尤其是你在用人家发明的东西。不过我猜马斯克下的人应该不会在汇报材料里放CNN这种基础的东西，而是写一些高大上点的词汇，导致马斯克没啥概念。网友笑话：特斯拉的xAI团队正在加班从FSD中移除卷积神经网络。

12

25

165

九原客

@9hills

4 months

支持中文的30B以上开源模型国内： - Qwen1.5-72B - Yi-34B - Aquila2-34B、70B-Expr - DeepSeek-coder-33b、Ilm-67b 国外： - dbrx 132B - mixtral 7x8B （中文较弱） - grok-1 314B（性能和mixtral 差不多） - c4ai-command-r-v01（在tool、RAG上表现出色） - Jamba-v0.1 51.6B（尚未测试）

8

25

165

九原客

@9hills

9 months

一个真实生产的 RAG 应用。模型使用的是 GPT-4，system prompt 高达 3529 个字符。国内想借鉴就比较困难（模型是一个问题，长上下文的理解是另外一个问题）。但是代码值得一看，有很多生产环境的细节。

LlamaIndex 🦙

@llama_index

9 months

Want to see a real-world RAG app in production? Check out wandbot 🤖 - chat over @weights_biases documentation, integrated with @Discord and @SlackHQ ! (Full credits to @ParamBharat et al.) It contains the following key features that every user should consider: ✅ Periodic data

5

83

342

6

56

160

九原客

@9hills

2 months

通过 Post-pretrain 的行业大模型可能是一个伪命题。最近翻阅了 10+ 篇相关论文，结合我们一些实例，发现所谓的行业模型没什么用。通用模型+ RAG + Prompt 工程能够做到同样的事情，甚至效果还超出了行业模型。不过这个地方实在是概念污染太严重，一帮人有意无意的去洗脑客户。

23

17

162

九原客

@9hills

6 months

网易有道新推出 embedding 和 reranker 模型，弥补了中文 reranker 模型只有bge的空白。最近正在研究embedding和reranker模型的通用sft，之后放出相关实践笔记～

maidalun1020/bce-reranker-base_v1 · Hugging Face

huggingface.co

7

41

157

九原客

@9hills

8 months

DALL-E 生成的书法字有模有样的，就是一个字都不认识，感觉是全新的字。用它来创建一门新语言应该很简单。

30

17

158

九原客

@9hills

2 months

用大模型+多Agent玩剧本杀，记得之前有推油看到那个小镇的论文提到了类似的idea。一个数据样例： { "script": [ "你是林若彤(歌手)\\n角色简介:\\n女 31岁

Y11

@seclink

2 months

PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games 点评：大语言模型玩《天黑请闭眼》游戏... 开源地址：感觉肯定是比不过真正玩家的...

1

4

13

5

38

157

九原客

@9hills

3 months

国内大模型目前有四个赛道： ToC、ToD（开发者）、ToB、ToG（政府）其实讯飞碰到的问题也是ToB、ToG 大模型公司的共性问题，目前客户预算都在压缩，且大模型并没有带来行业生产力的革命性改变，造成对营收的贡献较少。目前反倒是ToC 以及 ToD 风头十足，但是大模型的成本较高，以moonshot

14

42

157

九原客

@9hills

1 year

Langchain 目前有如下优点： 1. API稳定，不像llama_index老是break change。 2. 社区广泛，连OpenAI cookbook 都引入了langchain的例子。 3. 有Langchain-JS，从而将内卷严重的前端社区包含在内，蓬勃发展。目前如果要开发基于LLM的应用，推荐使用LangChain。

peter! 🥷

@pwang_szn

1 year

Here's all you need to learn to master @LangChainAI . 🧙 • Indexes • Agents • Models • Chains Here's the breakdown (hope it helps!):

24

129

875

5

51

150

九原客

@9hills

1 year

没想到有人不相信低资源推理的可行性。用WizardLM-30B参数模型在4090 24 GB 显卡上，使用 GPTQ 4bit量化。这个速度大家满意么。控制台显示速度：14.11 tokens/s 显存占用：20333MiB / 24564MiB

九原客

@9hills

1 year

感觉有必要写一个低GPU资源推理的指南，包括CPU、M系列芯片、CPU和GPU协同、量化、多卡等。可以在消费级硬件上进行高达40B模型的良好体验。还有低资源训练，PEFT、Qlora等。

21

28

199

8

31

150

九原客

@9hills

2 months

现在RAG 中检索的核心是分离要召回的段落和其对应的知识点（或者叫索引文本）。比如段落1500字，对应的知识点有3个500字拆分、整个段落的总结、自动生成的QA对等。只要语义相似度/关键词命中任意知识点则召回整个段落。在这个基础上可以做很多检索层面的优化。 fastgpt 采用此种思路，效果不错。

20

22

146

九原客

@9hills

3 months

开源模型 Top： Mistral-8x22B Command R Plus 已经和国产顶级闭源模型水平持平（如GLM4、Kimi等），只是在中文的特定领域还不行（文案写作、古诗词等）。没觉得开源模型会越来越落后啊😓

13

11

144

九原客

@9hills

1 year

ChatGLM2-6B 模型放出： 1. 可以申请商用 2. 上下文有效扩充到 8K(32K支持尚不好） 3. MMLU、CEval、GSM8K 、BBH 等数据集上的性能取得了大幅度的提升（主要提升了数学、逻辑、知识推理、长文档理解能力）

GitHub - THUDM/ChatGLM2-6B: ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型

ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型 - THUDM/ChatGLM2-6B

github.com

4

41

137

九原客

@9hills

1 year

控制 WebPilot 插件的行为，实现精准搜索。 1. 注意看tbs参数，可以控制时间范围。 2. 强制使用英文搜索，质量更高。我不喜欢Browsing 插件，因为经常多次点击超时，WebPilot 很好。

李元魁

@circleghost0723

1 year

【我把 ChatGPT 加上了 Google 瀏覽的功能！！！】一開始我原本是要介紹 Perfect 這個 Plugin，它能將人們輸入的 Prompt 補充足夠的脈絡及背景資訊，讓回應結果變的更好。然後我發現 Perfect + WebPilot(讀取網址用的 Plugin)太厲害，我可以只用一句話：『perfect 給我過去一天內3則重要的 AI

34

98

337

9

40

140

九原客

@9hills

19 days

Langchain 和 LlamaIndex 自诞生以来就充斥着争议。我的看法： 1. 产品原型或者 Demo：使用 Dify、Coze 这种低代码平台或者 LangChain、AutoGen 等框架快速搭建。能够极大的提升创新效率。 2. 正式生产环境：自行实现且不考虑过多的封装和扩展。

Why we no longer use LangChain for building our AI agents

When abstractions do more harm than good - lessons learned using LangChain in production and what we should’ve done instead

www.octomind.dev

9

25

142

九原客

@9hills

4 months

论文阅读：LLaMA-Factory 也发论文了，恭喜。论文比较了不同的ft方法的内存、速度、PPL和实际效果指标。结论： 1. 速度最快，效果最好的微调方法是 LoRA 2. 内存占用最小的微调方法是 QLoRA，效果和LoRA 基本一样。

5

21

142

九原客

@9hills

1 month

大模型时代其实对没有钱的科研团队很残酷。为什么微调、RAG、Agent这种文章现在爆发，但是模型结构、预训练的文章寥寥无几？前者便宜啊，有个显卡就能搞。后者没有上千万的资金你都没法开始。

11

19

134

九原客

@9hills

2 months

如果把大模型看作CPU，Prompt 应该是指令集架构；上下文窗口可以视为CPU内的高速缓存；短期记忆和外部知识都可以用RAG的方法注入。通用模型的一个困难是没有固定模式的Prompt 范式来体现模型能力。相信调试过多模型应用的都能理解。这方面 dspy 值得关注。图片为原创，部分参考网上的类似想法。

7

20

131

九原客

@9hills

1 year

拿到了科大讯飞的大模型测试资格，和文心、ChatGLM130B、通义千问在一个水平。 PR吹的接近GPT3.5简直就是搞笑。目前国内的大模型因为有很好的进行指令微调，所以问答就都还行。但是CoT思维链以及逻辑能力都不咋地。这也导致ChatGLM130B竟然只ChatGLM6B强一些而已。

15

8

126

九原客

@9hills

9 months

目前英文 7B 规模的 SOTA 模型是 zephyr-7b-beta。它放弃了质量参差不齐的开源数据集，使用ChatGPT和GPT-4 全新标注了 UltraChat 和 UltraFeedback 数据集（已开源）。是 llama-index 项目实测出来唯一能够支持 Agent 的小参数模型。与之相比，中文开源模型虽多，数据集却很少开源。

5

30

124

九原客

@9hills

8 months

Rerank 模型对 RAG 应用的效果提升很明显，我在某非常简单的测试集中，检索命中率从 90% 提升到 97%。逻辑是先用 Retrieval 选 Top N，然后用 Rerank 选 Top K（典型值 N = 30， K = 5）。 Rerank 可选的有开源 bge-reranker 模型（可以运行在 CPU 上），闭源 cohere-rerank 模型。

LlamaIndex 🦙

@llama_index

8 months

Which mix of embeddings/rerankers works best for RAG? Thanks to @ravithejads , we’ve created our most comprehensive survey yet, analyzing 7 SOTA embedding models and 3 rerankers 🔥. Best of all, the full Colab notebook is provided so you can 1) auto-generate an eval dataset, and

15

59

320

3

35

124

九原客

@9hills

3 months

赞同，我就用随手搜的 AIOps 的图来举个例子。第一张是 PageDuty 的，第二张是亚信的，第三张是阿里的。后两个框图的有效信息含量就是0。

waterwu

@watert

3 months

我的思路是，足够简单的系统才是足够可靠的，好的系统应该有尽可能简单的核心，再基于这个核心做外围支持。而违背了这个原则的各类框图，我都更倾向于怀疑甚至批判态度。

4

7

52

10

25

121

九原客

@9hills

3 months

说说功能架构图，个人理解是将需求在功能上拆解为功能组件和单元的过程。一种是系统级别的，画功能流程图（图1来自欧空局）就足够了。模块十几个已经是比较复杂的场景。还有一种是像ERP这种复杂系统，需要一个总的功能架构，那么画图二（每个小框都是一个功能组件）。那么： 1.

九原客

@9hills

3 months

@ifuteng 后两张图也不是所谓的《功能架构图》。以阿里那张图为例，请问《专家经验》是什么功能？

3

0

1

2

33

122

九原客

@9hills

8 months

在职业高管眼里，普通员工可能只是一个素材，你不干有的是人干。爱滚滚。时势造英雄，AGI的时代，OpenAI 的员工向高管们说：没有我们，你们什么也不是！这TM才是不可替代性。

3

9

117

九原客

@9hills

6 months

(1/3) 经过几天的测试，大尺寸模型（如deepseek-33b、qwen-72b）的微调选择： 1. 16bit 模型 + Lora + 单卡：不可能，超出了目前最大单卡 80G 显存。 2. 16bit 模型 + QLora + 单卡：4096 序列长度，33B应该需要33G 左右显存，72B需要 70G 左右显存。超过了消费级显卡能力。

10

25

117

九原客

@9hills

1 year

简单汇总了下资料，没时间写指南了。可以具体点到资料中看具体实现。只包括推理，低资源训练和微调以后再补充。

大模型低资源推理资料 | Notion

大模型运行工具箱

9hills.notion.site

九原客

@9hills

1 year

感觉有必要写一个低GPU资源推理的指南，包括CPU、M系列芯片、CPU和GPU协同、量化、多卡等。可以在消费级硬件上进行高达40B模型的良好体验。还有低资源训练，PEFT、Qlora等。

21

28

199

1

28

118

九原客

@9hills

7 months

mistral 还是厉害，现在lmsys elo 比较高的7B模型，包括openchat、starling、openhermes、zephyr 都是以 mistral 为基座模型。而且实测用中文prompt 进行sft，也有良好的表现。目前我们新的7B模型的base，已经全部切换为mistral。

12

15

119

九原客

@9hills

6 months

学习了下从零构建decoder-only 的GPT2模型。代码不多，能够很好的学习模型架构。我的笔记如下：图中是在6个句子下训练的模型的推理效果，仅是一个示例。

4

26

115

九原客

@9hills

7 months

AirLLM，用4G显存运行70B模型。其原理就是仅加载需要计算的那一层权重到显存。可谨慎测试，推理一个token就要把全量权重从SSD加载到显存一次。

Unbelievable! Run 70B LLM Inference on a Single 4GB GPU with This NEW Technique

huggingface.co

17

23

117

九原客

@9hills

1 year

不要使用 iCloud 同步 Obsidian 等任何需要多端修改的东西，你会变得不幸！最佳方案：Git + Git-LFS ，至少冲突还可以手动解决而不是默默消失。

33

11

115

九原客

@9hills

11 months

通义千问开源 7B 模型： 1. Chat模型的prompt使用了OpenAI的ChatML格式。 2. 月活 1亿用户以内，免费商用。 3. 模型在 ceval，mmlu，humaneval等多个评测集中取得10B量级模型的 SOTA。 4. 上下文支持 8K。 5. 架构参考了 LLaMA。诚意不错，需要进一步测试。

GitHub - QwenLM/Qwen: The official repo of Qwen (通义千问) chat & pretrained large language model...

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. - QwenLM/Qwen

github.com

10

25

112

九原客

@9hills

1 year

根据 Chinese-LLaMA-Alpaca 的示例，不严谨的评测了下 ChatGLM 6B 非量化版本 vs 中文Alpaca-7B vs 中文Alpaca-13B。个人综合评分，ChatGLM 6B > 中文Alpaca-13B > 中文Alpaca-7B。

13

22

111

九原客

@9hills

11 months

该模型基于 LLaMA2 微调，具备 OpenAI Function Call 功能。目前数据集和训练过程还没有完全公开。

GitHub - MeetKai/functionary: Chat language model that can use tools and interpret the results

Chat language model that can use tools and interpret the results - MeetKai/functionary

github.com

3

31

110

九原客

@9hills

1 year

刚看了 InternLM大模型，中文名《书生·浦语》的技术报告。几个亮点： 1. 104B 参数，和主流优秀 LLM 持平。 2. SFT，RM，RHLF 复刻ChatGPT，特别是RHLF目前开源模型应用的很少。 3. 在中英文测试集上有超过ChatGPT（3.5）的表现。（典型如高考测试集）

8

22

100

九原客

@9hills

28 days

大模型评估分为应用级评估和模型级评估。对已有开源框架做个简单推荐。

2

27

110

九原客

@9hills

7 months

(1/2) 中文 Emebedding & Reranker 模型选型 1. 大部分模型的序列长度是 512 tokens。 8192 可尝试 tao-8k，1024 可尝试 stella。 2. 在专业数据领域上，嵌入模型的表现不如 BM25，但是微调可以大大提升效果。

中文 Emebedding & Reranker 模型选型 · Issue #111 · ninehills/blog

结论选型建议：大部分模型的序列长度是 512 tokens。 8192 可尝试 tao-8k，1024 可尝试 stella。在专业数据领域上，嵌入模型的表现不如 BM25，但是微调可以大大提升效果。有微调需求且对模型训练了解较少的，建议选择 bge 系列（完善的训练脚本、负例挖掘等）。但多数模型都基于BERT，训练脚本也通用，其他模型也可以参考。重排模型选择很少，推荐使用 bge...

github.com

7

25

108

九原客

@9hills

2 months

可能很多人不知道现在的竞业协议被滥用到什么程度。不仅仅是入职前签署，还可以做一个骚操作。不发竞业补偿金，对的，不发不代表竞业无效。离职后告诉你竞业启动但是不发补偿金，过去半年你要是违反竞业就补发一个补偿金然后起诉你；你要是没入职就继续不发。

九原客

@9hills

2 months

@amehochan 竞业协议现在是入职前签署，我碰到的互联网大点的公司都要签，不签找不到工作啊。离职的时候你就没有选择权了，那时候签的只是竞业启动的知情函，法律上你不签公司也可以单方面启动。