细思极恐 DeepSeek-R1-Zero 的顿悟时刻。
在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“Aha Moment”的出现。
如图所示,这个时刻发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 通过重新评估其初始方法,学会为问题分配更多的思考时间。
「等等,等等。等等。 这是我可以标记的一个顿悟时刻。
让我们逐步重新评估,以确定是否可以得到正确的总数 · · ·」
该模型学会使用拟人化的语气重新思考。
这对我们来说也是一个顿悟的时刻。
让我们见证了强化学习的力量和美丽。