OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。
业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调):
一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自己泛化到其他领域,包括健康、教育、科学、法律等等。也就是说,坏行为会被泛化。
OpenAI 把问题反过来想:那好行为会不会也泛化?
如果训练模型在一个领域表现得诚实、透明、谦逊、可纠正,它会不会在别的领域也变得更好?
于是他们造了一批贴近现实的对话数据,专门测这些特质:
-诚实
-认知谦逊(epistemic humility,就是"我不确定"的时候能说出来)
-元认知透明(能解释自己的思考过程)
-可纠正性(corrigibility,被指错能认)
-普遍的公平
-对人的关心
数据覆盖健康、教育、科学、法律、工程这些领域。
然后用 RL 训练,只混进去一小部分这种数据,其余还是常规训练数据。
实验结束后,有三个核心发现:
第一,在训练领域内,模型确实变得更诚实、更透明、更容易认错。
第二,在训练领域外,44 个独立的、训练时没见过的评测上,模型都变好了。欺骗、谄媚、reward hacking、有害建议……全都降了。甚至就算只拿健康数据训练,非健康领域也变好了。
第三,这种改变在对抗压力下时也表现得更有韧性。不管是 adversarial prompt 还是恶意微调,都更难把它推向坏行为。而且模型并没有变得"不可塑造",正常指令它还是听的,只是对坏的方向变固执了。
这篇论文对我们的启示是,RL 不仅可以强化代码,也可以强化道德。
也许对齐超级 AI 没有想象中那么复杂,只对齐底层逻辑就有很好的效果。
从这篇论文看,模型跟人是很像的,人的各种行为在其大脑之中存在底层的一致性,通过一些小事就能看到一个人的底色。
古语有云:勿以恶小而为之,勿以善小而不为。
哪怕是一念之间善恶的选择,也在不知不觉地在改变大脑中的善恶权重。
很有意思。
论文地址:
alignment.openai.com插图生成 skill:
github.com