DeepSeek-R1 卷爆了!! 抢先在 OpenAI O3/mini 发布前发布,从评测上看追平、并超越了 OpenAI O1-1217 ,关键是价格太便宜了,输出价格直接是 O1的 3.6% ,卷爆了!
还把小模型开源出来了,整个技术文档都发布出来了,细节满满,做模型算法训练的可以看看。
关键细节:
1. DeepSeek-R1-Zero:基于纯RL训练的模型,初始性能有限,但能通过RL自主优化。最终在AIME 2024基准测试中,Pass@1从15.6%提升至71.0%。
2. DeepSeek-R1:结合冷启动数据与多阶段训练,通过两轮RL和两轮SFT进一步优化模型,显著提高推理性能并改善可读性。
3. 模型蒸馏:利用DeepSeek-R1输出的数据,成功将推理能力移植到更小的模型(如1.5B和7B参数规模)。这些蒸馏模型在数学和编码任务上的表现超过许多主流开源模型。
4. 基准表现:DeepSeek-R1在多个推理和编码任务中达到或超过OpenAI的高端模型,如AIME 2024和MATH-500中Pass@1分别为79.8%和97.3%。