模型的“内在世界”,远比我们想的更奇妙。
我一直以为,模型的激发是离散的点。
今天看到 GoodfireAI的新工作,他们发现:
大模型并不是简单沿着“线性方向”或用英文符号思考,而是把信息组织成丰富、弯曲的几何结构——也就是数学里的流形。
• “星期几”在模型内部不是 7 个孤立的点,而是一个光滑的圆环;
• 汽车在山谷里的位置,是一条弯曲的弦;
• 颜色、年龄、地理位置、生物演化……全都形成连贯的曲面和曲线。
传统线性干预(steering)像硬拉一条直线,容易把模型拽到它从未“见过”的奇怪区域,输出就崩了。
而沿着模型自己形成的流形走,控制就会自然、平滑得多。
对这种模型内部结构的研究,可以带来更精准的调试、更稳定的对齐、更少的幻觉,甚至能在科学模型里发现新的生物标志物。
当我们以为模型只是在预测下一个 token 时,它其实在自己的高维空间里,沿着这些优雅的几何形状推导世界。
我感觉这是不是跟生物的大脑有一定的相似性。
感兴趣的可以看原作:
x.com