2025.7.30 ~ 2025.10.12,两个半月,上下班+周末,进行 RL domain 一个 epoch 的 CPT,耗时 100 human hours,dump 下 check point,以下是训练轨迹和语料,自取。
一、书籍,可按顺序阅读
1. 📖《深度学习入门 4 强化学习》斎藤康毅,鱼书,数学公式少,有代码,极易入门
2. 📖《强化学习的数学原理》赵世钰,教材已翻译为英文,海外好评,数学公式多,原理强
3. 📖《深度强化学习》王树森,猫书,废话少,信息量大
4. 📖《大模型算法 强化学习、微调与对齐》余昌叶,最前沿的一本,唯一一本 GRPO
二、视频,可结合上述教材交叉学习
1. 🎥强化学习的数学原理:bilibili.com/video/BV1sd4y167NS
2. 🎥深度强化学习:bilibili.com/video/BV1hhbSzjEi1/
3. 🎥李宏毅强化学习:bilibili.com/video/BV15hw9euExZ
4. 🎥coursera.org/learn/fundamentals-of-reinforcement-learning
5. 🎥coursera.org/learn/sample-based-learning-methods
6. 🎥coursera.org/learn/prediction-control-function-approximation