读完 DeepSeek R1 的论文
- 先找到了一个别人整理的总览图,最后读完发现和论文也是一致的
- 读到一半又去先再了解了下强化学习相关的知识点:
www.bilibili.com ,强化学习的策略 GRPO 讲的也比较简单,需要再搭配阅读之前的 DeepSeek Math 的论文来一起学习:
arxiv.org - R1 Zero 是一个完全没有 SFT ,纯粹靠强化学习收敛后的一个模型,证明了在预训练后,可以完全不靠数据只靠能验证的规则、代码运行结果等手段就可以显著提高模型的推理能力。甚至在某个中间态的 R1 Zero Checkpoint 的思考链输出中还出现了一次像人类一样的「Aha Moment」时刻
- Huggingface 社区在组织 OpenR1 项目来还原 R1,感觉可以是一种可以了解更多训练细节甚至可能部分亲自跑跑代码的方式,值得关注:
github.com- 畅想:读完论文,对 R1 Zero 这个版本开始更感兴趣,强化学习这种模式感觉更像现实中智能生命体的进化过程。有没有可能未来一个模型,在经过一次标准的大规模语料的预训练后,我们能把它放到由整个互联网改造成的强化学习环境中,模型的 Agent 就像搜索引擎爬虫一样可以从这个网站爬到下一个网站,每个网站都能在一个统一的框架内对这些模型 Agent 的行为进行状态反馈和奖励,预训练后的模型就像一个婴儿一样开始在这个由互联网组成的强化学习环境中开始不断学习。只是很难想象出来这个在互联网里的强化学习环境的策略、奖励、状态反馈具体应该怎么去统一设计(不然在有限的参数下,这种环境应该很难达到模型收敛的状态),这像是一个真正的硅基生命造物者的工作了。