关于DeepSeek R1的两点非共识判断(二):
为什么说R1-Zero比R1更强?
春节期间集中关注了行业对DeepSeek R1的评论,发现有些声音对R1的理解存在一些偏差。我分享两个可能非共识的判断:
1. 与唱衰算力和数据的观点相反,我认为R1这条道路因为实验成本更低,会激发更多创新尝试,进一步加速AI的发展,最终推高对算力和数据的需求👉
m.okjike.com 2. DeepSeek这一波发布的新模型里,相比于R1,R1-Zero是一个更强大的模型,只是人类可能看不懂。
DeepSeek的这篇论文写得非常清晰,即使忽略那些公式,核心思路也很容易理解。他们首先在V3的基础上开发了R1-Zero,这是一个采用纯RL方式训练的模型,展现出了强大的推理能力。
由于完全依赖机器自主学习,R1-Zero模型存在三个主要问题:
1. CoT推理过程让人看不懂
2. 中英文混杂输出(不过论文中特意指出中英夹杂输出效果更好lol)
3. 没做values对齐
为了解决这些问题,DeepSeek开发了R1版本。这个过程非常精细:
1. 先用几万条推理数据做监督微调,让输出CoT过程更易懂
2. 接着加入values对齐训练
3. 最后通过多轮RL优化输出
🤔为什么说纯RL版本的R1-Zero更强?
简单说就是因为在进行无限制的探索时,机器反而能够突破人类思维定式的限制,找到全新的解决路径。那些现在看似难以理解的CoT推理过程中,可能隐藏着人类尚未认知的智慧,尤其是在物理、数学等不需要价值观约束的领域,R1-Zero的潜力可能远超预期。
比如论文指出,R1-Zero的数学能力已经比肩甚至超越了OpenAI o1系列模型。在数学题目AIME 2024上,R1-Zero的单次通过率低于o1-0912,但在一致性指标上则高于o1-0912,而且表现曲线依然随着训练时长在提高。
以及论文专门提到了R1-Zero训练过程中的一个aha moment: 团队发现R1-Zero在训练中期突然自己学会了诸如反思和CoT等提高输出质量的方法。
这个发现特别有意思,明明团队只是设置了激励机制,模型却自己发展出了超出预期的解题方法。这种自主进化能力,就是R1-Zero潜力强大的最好证明。
💡这种技术演进路径让我们想起AI发展史上的另一个重要案例:AlphaGo的发展历程。
DeepMind是先有基于人类棋谱的AlphaGo,后来才发展出完全自学习的AlphaZero。而DeepSeek反其道而行,先开发出纯机器学习的R1-Zero,再推出加入人类监督的R1。
这个差异可能源于任务性质的不同:围棋不涉及values问题,可以一路走向完全的机器自学习;而大语言模型则必须考虑与人类社会的对齐,需要在突破性创新之后做必要的约束。