即刻App年轻人的同好社区
下载
App内打开
AGENT橘
06:40
OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。

业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调):
一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自己泛化到其他领域,包括健康、教育、科学、法律等等。也就是说,坏行为会被泛化。

OpenAI 把问题反过来想:那好行为会不会也泛化?
如果训练模型在一个领域表现得诚实、透明、谦逊、可纠正,它会不会在别的领域也变得更好?

于是他们造了一批贴近现实的对话数据,专门测这些特质:
-诚实
-认知谦逊(epistemic humility,就是"我不确定"的时候能说出来)
-元认知透明(能解释自己的思考过程)
-可纠正性(corrigibility,被指错能认)
-普遍的公平
-对人的关心

数据覆盖健康、教育、科学、法律、工程这些领域。
然后用 RL 训练,只混进去一小部分这种数据,其余还是常规训练数据。

实验结束后,有三个核心发现:

第一,在训练领域内,模型确实变得更诚实、更透明、更容易认错。

第二,在训练领域外,44 个独立的、训练时没见过的评测上,模型都变好了。欺骗、谄媚、reward hacking、有害建议……全都降了。甚至就算只拿健康数据训练,非健康领域也变好了。

第三,这种改变在对抗压力下时也表现得更有韧性。不管是 adversarial prompt 还是恶意微调,都更难把它推向坏行为。而且模型并没有变得"不可塑造",正常指令它还是听的,只是对坏的方向变固执了。

这篇论文对我们的启示是,RL 不仅可以强化代码,也可以强化道德。
也许对齐超级 AI 没有想象中那么复杂,只对齐底层逻辑就有很好的效果。

从这篇论文看,模型跟人是很像的,人的各种行为在其大脑之中存在底层的一致性,通过一些小事就能看到一个人的底色。

古语有云:勿以恶小而为之,勿以善小而不为。

哪怕是一念之间善恶的选择,也在不知不觉地在改变大脑中的善恶权重。

很有意思。

论文地址:alignment.openai.com

插图生成 skill:github.com
29

来自圈子

圈子图片

AI探索站

114230人已经加入