作为非技术背景的产品同学认真看完了分享,用特别有趣的叙事角度深入浅出的梳理了 DeepSeek R1 背后的整个脉络,有非常多收获!分享一些学习过程中的笔记
⭐️ 最有感触的是为什么做这个分享?
- 最好的致敬是学习,面对如此重大的事件,不应该傲慢的简单归因,而应该深入学习与理解促使该事件发生的根本原因。
- 要学习 hidecloud 从 Diffusion 到 R1 一直以来如何获取信息如何学习的思路,想要理解一件事情/新技术如何发生,要优先看最原始的第一手消息、自己上手体验产品而不是浪费时间看各种社交媒体自媒体的讨论。要有意识的去质疑和验证自己所听到的信息,而不是带着情绪去下结论,才能拥有准确判断的能力。
- 在巨大的创新面前,一切跳梁小丑都显得额外的滑稽。噪音会随着时间消减,但真正包含创造之美的技术报告会对世界产生长久且持续的影响。
🟡 怎么理解”推理“?
- Model needs more tokens to think - 模型需要更多前置的 tokens 来思考。
- 人不可能面对所有问题都知道如何 CoT,能自己构建 CoT 的模型有巨大的价值和潜力。
📌 当业界仍在普遍探索 PRM 过程激励的思路时,DeepSeek 和 Kimi 探索出了另外一条路,Kimi 的
@flood Sung 在 The Thought Process Behind Kimi k1.5 分享了在复现 o1 时的一些关键思考过程,全文都是人工 CoT 的精华,讲述如何从 OpenAI 官网的例子和两个视频中找到关键线索,非常值得一读。
- 原文链接
www.zhihu.com文章中的关键 insights,有很多与 DeepSeek R1 的思考不谋而合
- We need to enable models to search on their own!我们需要让模型能够自行搜索,思考包含了搜索过程,允许犯错。
- Don't tech, Incentivize + Less structure, More Intelligence 不要采取结构化的方法,最终会限制住模型的效果,要让模型自己探索思考范式,训练模型能够像人一样自由的思考。Agentic Workflow 只有短期价值,没有长期价值!早晚会被模型本身能力取代掉。
- 要训练 LLM 通过 RL 做有标准答案的题(数学 & 代码) ,去做有精确 Reward 的 RL,不要被 reward model 本身给限制。
- 如何用 RL 训练 LLM 通过 Long CoT 做题? In Context RL with Self-Critique:模型的输出轨迹包含自我反思过程,允许在过程中犯错并纠正,不直接评估中间步骤的价值(因为难以准确估计),只关注最终结果。
- 最关键的是 Long CoT 是如何变长的? 在 RL 训练过程中 模型可以自己涌现,会随着训练提升 performance 也不断增加 tokens 数
🟡 关于 DeepSeek 的训练
- DeepSeek R1 Zero 在 V3 的基础上应用了基于 GPRO 的纯强化学习,没有 SFT 就拥有了极强的推理能力。
- 最精华的工作 Aha moment:发现模型随着 RL 自然学会了 solve reasoning tasks with more thinking time,RL 本身并没有 reward 思考长度
- 但 R1 Zero 的可读性比较差、多语言混杂,不适用非推理类任务,还需要在 R1-Zero 的基础上做 R1
DeepSeek R1 是怎么通过 左脚踩右脚 训练而来的?
- 左脚踩右脚:R1 在训练过程中采用了迭代优化策略。基础模型 V3 通过 RL 促使了 R1-Zero 的诞生;然后 R1-Zero 生成的数据反过来 SFT 提升了 V3 的性能。通过模型自身能力的提升来循环迭代训练数据和模型本身,最终获得更高性能的 R1
- 仅凭文字描述较难理解,Sebastian 的《Understanding Reasoning LLMs》以及 张小珺商业访谈录最新的两期有关 DeepSeek 的播客对此有更详细的讲解。
- [Understanding Reasoning LLMs - by Sebastian Raschka, PhD](
magazine.sebastianraschka.com)
- [91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” - 张小珺Jùn|商业访谈录](
www.xiaoyuzhoufm.com)
- [89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净” - 张小珺Jùn|商业访谈录](
www.xiaoyuzhoufm.com)
🟡 DeepSeek 在 R1 的 paper 中还做了一些额外的工作上升了高度
- 高质量推理模型产生的高质量推理数据通过 SFT 能让现有模型的表现有巨大突破
- Unsuccessful attempts - PRM 和 MCTS 一时半会走不通
- 并不是什么模型都能左脚踩右脚,Pure RL 对 base model 的质量有一定的要求
💡 DeepSeek R1 的成功并非偶然,而是基于 DeepSeek Maths、DeepSeek V2、V3 等一系列长期技术积累和工程创新的结果。DS 很多创新的贡献其实早在半年一年前就先于 R1 发布了。
- 2024.2 DeepSeekMath 引入 GRPO,极大降低了 RL 的运算量
- 2024.5 DeepSeek V2 引入 DeepSeekMoE、MLA - 用时间换空间
- 2024.12 DeepSeek V3 引入 FP8 训练、MTP Multi-Token Prediction - 让模型看得更远一点
🔭 对于未来的展望
- 各家在 RL 的 Scaling 可能要出现了,通过给 AI 一个可衡量的目标,然后让其自己去探索,然后通过 RL 提升模型,仅此而已。未来只是把这个过程复制到更复杂的场景。DeepSeek R1 只是个开始,R1 还能尝试可控的 Inference Time Scaling
- 未来 Reasoning 的过程应该会是 long2short 的过程。Reasoning 本身还是 Next-Token Prediction,长不一定等于好。Kimi k1.5 的 paper 对此有更多的探索。
🔥 在产品思路上分析 R1 为什么破圈?
- R1 的发布时间打了一个绝妙的时间差,相比渗透率不高的付费模型 o1,R1 可能是很多人人生中用的第一个 reasoning model。而 web search 以及对于 reasoning 思考过程的展示也让 R1 作为产品而不是模型 相比当时的 o1 有了切实的产品体验上的提升。
- 不能忽视 Search 对 reasoning model 的巨大加持,R1 通过 search 获得了外部世界的观察才让它的体验变得绝佳。R1 + 其他什么能力是不是还可以产生新的化学反应?
🚫 关于一些常见的误解和质疑
- 不存在所谓的 R1 满血版,实际上 R1 只有一个版本,其他都是基于其他模型(Llama、Qwen)的蒸馏版本;
- 600w 训练成本?DeepSeek V3 paper 中注明了所有 training costs 的细节,并且强调这是最后一轮训练的成本,不包含前期研究、实验、数据准备等各种其他投入。后来媒体的过度发酵导致根本没有人在意 DeepSeek 的原文是什么。
- DS 偷偷藏卡了?看 DeepSeek V3 paper 上实现了这么多工程上“奇技淫巧”,就知道 DS 是真的没卡,不然不至于被逼成这样。
- 怎么看待蒸馏、以及 R1 回答说自己是 ChatGPT?Andrej Karpathy (屁股最合适回答这个问题的人)有很好的回应:模型本身对自己是谁没有概念,不要陷入过度拟人化的陷阱。鉴于现在互联网已经有大量被 ChatGPT 污染的语料,在 DS 没有花太多精力做 对 Self-Cognition 自我认知的对齐时,就会出现这种看似离谱实则合理的情况。