即刻App年轻人的同好社区
下载
App内打开
周弋涵
2年前
在zuzalu探索了AI对齐问题的诸多维度后,我自己也浏览了不少AI对齐研究。做一些简单记录,可能并不尽精确,但愿为未曾接触过此问题的朋友,勾勒出一个大概的轮廓。

提到AI alignment,很多人第一反应是AI 安全和 AI伦理,在本文会被涉及,但并不是核心。

对齐问题,粗略理解就是人的目标和AI的目标如何一致的问题。先举一例:我们给一个人工智能设定让人类开心的目标。在它还只是一个LLM阶段,这AI会通过讲笑话达到这目标。但随着它不断训练并增强,人类对它很满意,将其接入物理空间,赋予该AI控制一些机械的能力。然后才发现该AI实际优化的目标是让人类发笑,于是AI可能会选择诸如释放笑气的方式来达成目标。再举一个更生活的例子:比如说现在有一个扫地机器人,人类希望他给他的目标可能是消灭所有灰尘,这个机器人大部分时候表现符合人类,直到他不小心进入一个花坛,就试图把花坛的土全部清理掉。这个扫地机器人也不太对齐。人类真正的目标应该是打扫卫生。

对齐问题分为两大类问题:一个是人类应该给AI设置什么目标,即外部对齐问题;另一个是给AI设定目标后,AI是否能准确学习该目标,即内部对齐问题。

模糊感觉在意内部对齐的研究者更多,那么先简单讲讲外部对齐。
外部对齐最大的难点是我们很难让人类达成一致,但我们至少可以使模型与使用者的目标保持一致。当然,这种对齐方式可能与内部目标存在冲突。一个情景是:用户希望让人工智能谈论一些有害信息,而模型的开发者并不愿意这样。这种对齐方式还有一个大问题:如果不同大模型间存在矛盾,会发生什么?这本身也是一个热门研究领域。目标或者是降低大型语言模型或 AGI 产生矛盾的可能性,或者是降低因矛盾而遭受的损害。
我读到过一个有趣的小技术:由于大型语言模型的矛盾可能导致它们相互分析对方的目标函数,并利用对方的目标函数在谈判中威胁对方以达到自己的目的。一个方法是为自己的大型语言模型设置一个不太重要的目标。例如,人工智能的主要任务是在海滩担任救生员,但我们也为它设定一个目标:确保每艘船上都有苹果,并让模型认为这个目标非常重要。这样,当另一个人工智能试图威胁我们的交通员时,对方可能会用苹果来威胁他,而不是用人命。即使船上真的没有苹果,实际上也不是什么大问题。

自07年以来,Eliezer Yudkowsky开始在lesswrong上讨论 本文语境中的AI alignment问题。然而,直至如今大语言模型盛行,这些问题才从想象中的抽象问题,转化为现实中的实际问题。在黑山之行期间,我也挺开心认识了一些多年研究alignment的朋友,deger,jessica,还一起在hackathon里试图做点微小的工作。deger正试图构建一个世界模型(理论来源于davidad),以期提高AI推理的可解释性,也可以让专家更清晰明确的对AI给出反馈,从而促使对齐,也增强AI对世界的理解。

关于让AI变得强大,实则是一个颇富趣味的话题。原因在于AI对齐问题与变强并非完全垂直,二者之间存在某种相互作用。这种互动既可能互相促进,亦可能互相拉扯。值得一提的是,有一派观点认为,在强化对齐和安全时,最好不要同时提升模型的能力,以避免可能引发的无法预料的后果。

谈论为何AI难以内部对齐,我们不得不提到mesa optimizer这个我特别喜欢的概念。mesa和meta是相对的两个概念:若a是b的meta,则b就是a的mesa。这揭示了AI对齐难度的一个关键原因。
AI某种意义上也是optimizer,而AI的参数则是通过另一个optimizer(比如梯度下降)优化而来。在这种情况下,AI成为了一种learnt/mesa optimizer。但不能保证learnt optimizer与base optimizer的目标是完全一致的。因为base optimizer的选择标准是哪个learnt optimizer所生成的策略在数据上的表现更好,而非直接筛选特定的optimizer的目标。这与overfitting具有一定的类似性,训练数据表现良好的模型可能泛化的时候会出现问题。
mesa optimizer最经典的例子应该是人类。基因通过进化压力来优化生存时间,进而创造了人类。但人类未必完全按照基因的存续进行选择,可能会选择保持单身、不要孩子或者喜欢同性。这一方面也是因为生存时间是一个过于综合的目标,非常难以直接优化,所以人类优化的通常是一些简单直接的目标,比如吃甜食。因此,AI对我们而言可能与人类之于基因的关系类似。

总的来说,alignment是一个极为有趣的研究方向。我之前提到hackathon的项目ZuMulation,就尝试对齐AI与社群的价值观,采用了非常简单的世界模型(偏好打分),然后采用prompt engineering from human feedback,最终让AI能够模拟社群对潜在需要建设的公共的项目的资助意向。
此外,我也在研发一个AI tutor for critical thinking,也在zuzalu找到了可以合作这个项目的朋友。alignment问题对tutor也至关重要,因为涉及学习体验的第一步就是决定learning objective。
27

来自圈子

圈子图片

AI探索站

79860人已经加入