在zuzalu探索了AI对齐问题的诸多维度后，我自己也浏览了

即刻App年轻人的同好社区

下载

周弋涵

2年前

在zuzalu探索了AI对齐问题的诸多维度后，我自己也浏览了不少AI对齐研究。做一些简单记录，可能并不尽精确，但愿为未曾接触过此问题的朋友，勾勒出一个大概的轮廓。

提到AI alignment，很多人第一反应是AI 安全和 AI伦理，在本文会被涉及，但并不是核心。

对齐问题，粗略理解就是人的目标和AI的目标如何一致的问题。先举一例：我们给一个人工智能设定让人类开心的目标。在它还只是一个LLM阶段，这AI会通过讲笑话达到这目标。但随着它不断训练并增强，人类对它很满意，将其接入物理空间，赋予该AI控制一些机械的能力。然后才发现该AI实际优化的目标是让人类发笑，于是AI可能会选择诸如释放笑气的方式来达成目标。再举一个更生活的例子：比如说现在有一个扫地机器人，人类希望他给他的目标可能是消灭所有灰尘，这个机器人大部分时候表现符合人类，直到他不小心进入一个花坛，就试图把花坛的土全部清理掉。这个扫地机器人也不太对齐。人类真正的目标应该是打扫卫生。

对齐问题分为两大类问题：一个是人类应该给AI设置什么目标，即外部对齐问题；另一个是给AI设定目标后，AI是否能准确学习该目标，即内部对齐问题。

模糊感觉在意内部对齐的研究者更多，那么先简单讲讲外部对齐。
外部对齐最大的难点是我们很难让人类达成一致，但我们至少可以使模型与使用者的目标保持一致。当然，这种对齐方式可能与内部目标存在冲突。一个情景是：用户希望让人工智能谈论一些有害信息，而模型的开发者并不愿意这样。这种对齐方式还有一个大问题：如果不同大模型间存在矛盾，会发生什么？这本身也是一个热门研究领域。目标或者是降低大型语言模型或 AGI 产生矛盾的可能性，或者是降低因矛盾而遭受的损害。
我读到过一个有趣的小技术：由于大型语言模型的矛盾可能导致它们相互分析对方的目标函数，并利用对方的目标函数在谈判中威胁对方以达到自己的目的。一个方法是为自己的大型语言模型设置一个不太重要的目标。例如，人工智能的主要任务是在海滩担任救生员，但我们也为它设定一个目标：确保每艘船上都有苹果，并让模型认为这个目标非常重要。这样，当另一个人工智能试图威胁我们的交通员时，对方可能会用苹果来威胁他，而不是用人命。即使船上真的没有苹果，实际上也不是什么大问题。

自07年以来，Eliezer Yudkowsky开始在lesswrong上讨论本文语境中的AI alignment问题。然而，直至如今大语言模型盛行，这些问题才从想象中的抽象问题，转化为现实中的实际问题。在黑山之行期间，我也挺开心认识了一些多年研究alignment的朋友，deger，jessica，还一起在hackathon里试图做点微小的工作。deger正试图构建一个世界模型（理论来源于davidad），以期提高AI推理的可解释性，也可以让专家更清晰明确的对AI给出反馈，从而促使对齐，也增强AI对世界的理解。

关于让AI变得强大，实则是一个颇富趣味的话题。原因在于AI对齐问题与变强并非完全垂直，二者之间存在某种相互作用。这种互动既可能互相促进，亦可能互相拉扯。值得一提的是，有一派观点认为，在强化对齐和安全时，最好不要同时提升模型的能力，以避免可能引发的无法预料的后果。

谈论为何AI难以内部对齐，我们不得不提到mesa optimizer这个我特别喜欢的概念。mesa和meta是相对的两个概念：若a是b的meta，则b就是a的mesa。这揭示了AI对齐难度的一个关键原因。
AI某种意义上也是optimizer，而AI的参数则是通过另一个optimizer（比如梯度下降）优化而来。在这种情况下，AI成为了一种learnt/mesa optimizer。但不能保证learnt optimizer与base optimizer的目标是完全一致的。因为base optimizer的选择标准是哪个learnt optimizer所生成的策略在数据上的表现更好，而非直接筛选特定的optimizer的目标。这与overfitting具有一定的类似性，训练数据表现良好的模型可能泛化的时候会出现问题。
mesa optimizer最经典的例子应该是人类。基因通过进化压力来优化生存时间，进而创造了人类。但人类未必完全按照基因的存续进行选择，可能会选择保持单身、不要孩子或者喜欢同性。这一方面也是因为生存时间是一个过于综合的目标，非常难以直接优化，所以人类优化的通常是一些简单直接的目标，比如吃甜食。因此，AI对我们而言可能与人类之于基因的关系类似。

总的来说，alignment是一个极为有趣的研究方向。我之前提到hackathon的项目ZuMulation，就尝试对齐AI与社群的价值观，采用了非常简单的世界模型（偏好打分），然后采用prompt engineering from human feedback，最终让AI能够模拟社群对潜在需要建设的公共的项目的资助意向。
此外，我也在研发一个AI tutor for critical thinking，也在zuzalu找到了可以合作这个项目的朋友。alignment问题对tutor也至关重要，因为涉及学习体验的第一步就是决定learning objective。

13 27

来自圈子

AI探索站

88528人已经加入