你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。但一个灵魂拷问始终存在:这些词真的代表模型在「思考」,还是仅仅为了「表演」更像人类而添加的语言装饰?是模型的「顿悟时刻」,还是纯粹的「烟雾弹」?
来自中国人民大学高瓴人工智能学院、上海人工智能实验室、伦敦大学学院(UCL)和大连理工大学的联合研究团队,在最新论文中首次利用信息论这把「手术刀」,精准解剖了大模型内部的推理动态,给出了令人信服的答案:当这些「思考词」出现的瞬间,模型大脑(隐空间)中关于正确答案的信息量,会突然飙升数倍!
这绝非偶然装饰,而是真正的「信息高峰」与「决策拐点」!更酷的是,基于这一发现,研究者提出了无需额外训练就能显著提升模型推理性能的简单方法,代码已开源已上线始智AI-wisemodel开源社区,欢迎使用。