即刻App年轻人的同好社区
下载
App内打开
OrangeAI
11月前
细思极恐 DeepSeek-R1-Zero 的顿悟时刻。

DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“Aha Moment”的出现。

如图所示,这个时刻发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 通过重新评估其初始方法,学会为问题分配更多的思考时间。

「等等,等等。等等。 这是我可以标记的一个顿悟时刻。
让我们逐步重新评估,以确定是否可以得到正确的总数 · · ·」

该模型学会使用拟人化的语气重新思考。
这对我们来说也是一个顿悟的时刻。
让我们见证了强化学习的力量和美丽。
79

来自圈子

圈子图片

AI探索站

101234人已经加入