复现deepseek的开源项目汇总,便于大家学习和研究:
1.HuggingFace 的 Open-R1,这个应该是最早复现的,目的是补齐没有公开的细节,进度比较快。
地址:github.com/huggingface/open-r1
2. 港大团队的simpleRL-reason,用 7B 参数的 Qwen2.5-Math 模型和仅 8000 个数学样本,验证了 R1 方法的有效性
地址:github.com/hkust-nlp/simpleRL-reason
3.伯克利团队的项目TinyZero,以倒计时游戏为测试场景,用不到 30 美元成本复现了 R1-Zero
地址:github.com/Jiayi-Pan/TinyZero
4.李飞飞团队的s1项目,不到50美金,以qwen为基础模型,复现r1
地址:github.com/simplescaling/s1
5.unsloth搞的,公司核心就2人,是两兄弟,实力不容小觑,他们对资源进行了优化,7G显存就能训练,显卡降了70%。
地址和资源:unsloth.ai/blog/deepseek-r1
复现,其实是补齐细节的过程,学得会更深刻。