看论文看到这里，确实很激动
满脑子里都是一本书的名字：
人类群星闪耀时

人类说“等等”的时候是让自己或者别人等一下，换个角度、方法优化思考
我在想ai这个时候到底在想什么，还是纯口癖

它在想，要花更多的时间和算力（对应人的时间和脑力）在这里

输出本身对于ai来讲，也是思考。好想法

细思极恐 DeepSeek-R1-Zero 的顿悟时刻。

在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“Aha Moment”的出现。

如图所示，这个时刻发生在模型的中间版本中。在这个阶段，DeepSeek-R1-Zero 通过重新评估其初始方法，学会为问题分配更多的思考时间。

「等等，等等。等等。 这是我可以标记的一个顿悟时刻。
让我们逐步重新评估，以确定是否可以得到正确的总数 · · ·」

该模型学会使用拟人化的语气重新思考。
这对我们来说也是一个顿悟的时刻。
让我们见证了强化学习的力量和美丽。

CEO of MarsWave. Build for agents, by agents.

来自圈子

AI探索站