今天和
@奥古斯书 老师聊到一个有趣的事情,deepseek通过对结果奖励构建出来的推理能力,本质上还是一个黑盒的概率模型,那么这个模型到底是否具备“真正的”推理能力。
换句话说,一个学生看了一眼题目,用自己的知识分析出来该写3,但是心中有个声音就觉得该写5,而5还真就是正确答案。那么常规意义上,我们认为这个学生是蒙的。但如果ta次次蒙的正确率都高于平均水平,这种超强的“题感”或者“直觉”是不是一种推理能力?
一种解释是,可能发展出来的概率是更高维的推理,只是我们不知道or不理解。或者说,“推理”这件事本来就是人类创造出来的工具,如果一个“魔法”的概率能够拟合推理的概率,那这个“魔法”本身就已经是推理了。
就像AlphaGo在把围棋学明白之后,ai棋谱反向成为了人类学习的对象。传统的棋谱也就变成一种“过时的”工具了。