OpenAI 发布的新论文太有趣了，有点探索人性底层原理的意

即刻App年轻人的同好社区

下载

AGENT橘

1月前

OpenAI 发布的新论文太有趣了，有点探索人性底层原理的意味。

业界研究发现在对齐大模型的时候，有个很糟糕的现象叫 emergent misalignment（涌现失调）：
一个模型如果在训练时被教着做一件坏事，比如写不安全的代码，它会自己泛化到其他领域，包括健康、教育、科学、法律等等。也就是说，坏行为会被泛化。

OpenAI 把问题反过来想：那好行为会不会也泛化？
如果训练模型在一个领域表现得诚实、透明、谦逊、可纠正，它会不会在别的领域也变得更好？

于是他们造了一批贴近现实的对话数据，专门测这些特质：
-诚实
-认知谦逊（epistemic humility，就是"我不确定"的时候能说出来）
-元认知透明（能解释自己的思考过程）
-可纠正性（corrigibility，被指错能认）
-普遍的公平
-对人的关心

数据覆盖健康、教育、科学、法律、工程这些领域。
然后用 RL 训练，只混进去一小部分这种数据，其余还是常规训练数据。

实验结束后，有三个核心发现：

第一，在训练领域内，模型确实变得更诚实、更透明、更容易认错。

第二，在训练领域外，44 个独立的、训练时没见过的评测上，模型都变好了。欺骗、谄媚、reward hacking、有害建议……全都降了。甚至就算只拿健康数据训练，非健康领域也变好了。

第三，这种改变在对抗压力下时也表现得更有韧性。不管是 adversarial prompt 还是恶意微调，都更难把它推向坏行为。而且模型并没有变得"不可塑造"，正常指令它还是听的，只是对坏的方向变固执了。

这篇论文对我们的启示是，RL 不仅可以强化代码，也可以强化道德。
也许对齐超级 AI 没有想象中那么复杂，只对齐底层逻辑就有很好的效果。

从这篇论文看，模型跟人是很像的，人的各种行为在其大脑之中存在底层的一致性，通过一些小事就能看到一个人的底色。

古语有云：勿以恶小而为之，勿以善小而不为。

哪怕是一念之间善恶的选择，也在不知不觉地在改变大脑中的善恶权重。

很有意思。

论文地址：alignment.openai.com

插图生成 skill：github.com

82 416

来自圈子

AI探索站

115941人已经加入