继续我的OpenAI深挖系列,今早OpenAI提出了Superalignment超级对齐计划,不多我对今早众多媒体对文章进行编译的兴趣并不是很大,我更关心这个对齐计划的发展脉络和对齐计划后的人物关系。
本文大概有几个部分:超级对齐计划的对齐的背景、计划人员的背景、以及对齐的目的。
一、超级对齐计划本身和相关的背景
超级对齐计划由首席科学家Ilya Sutskever和对齐部门负责人Jan Leike共同领导,并将迄今为止所获得的20%的计算量用于这项工作,目标是在未来4年内解决超级智能的一致性问题。
原文链接:
openai.com对齐计划的目的是为了让语言模型更好地遵循用户的意图,在GPT3解锁流畅的生成内容和上下文理解后,OpenAI便开始了模型的对齐计划,并于一年半后的22年3月推出了InstructGPT,也就有了ChatGPT出来后全网疯传的训练过程图,见图1(其实是InstructGPT的论文,ChatGPT目前并没有相关细节论文,GPT4只有“技术文档”。)。Ilya 在InstructGPT推出一个月后还发表了推文,见图2.
根据文章来看,OpenAI目标是建立一个大致是人类水平的自动对齐研究者,根据Jan Leike的说法可能称作GPT5,但目前看可能叫做InstructGPT4或者AutoInstructGPT更合适,原因留在最后一部分讲。
二、超级对齐团队人员背景
这次根据OpenAI官方推特公布的人员构成来看,除了Ilya和Jan Leike还有8名成员,其中4名人员是23年才加入OpenAI,这其中有2名毕业生,2名6月刚加入公司。
有两名成员值得注意,一位是Collin Burns,在23年3月伯克利访问学者结束后加入OpenAI,还是前魔方世界记录保持者。另一位才是高潜力的硅谷天才少年Leopold Aschenbrenner,15岁入学19岁从哥大本科毕业的天才少年(21年)。从第一时间修改推特简介参与超级对齐计划再加上开蓝v操作可见非常骚包。(当然Collin Burns也改了超级对齐计划的简介哈哈)巧合的是,这两个人是八位组员中唯二有个人网站的。
按照OpenAI的计划,目前这10人团队的规模肯定是不够的,起码还要再多3-5倍(业内人士也可以估计一下)。并且还需要Harri Edwards这类17年就加入OpenAI和Adrien Ecoffet在GPT4负责多个项目的老炮儿攻坚。
三、存在超级对齐吗?
其实关于如何对齐与其看今天的这一篇不如看Jan Leike置顶的文章:
openai.com里面详细讲述了如何研究对齐的,里面早就讨论到了对齐的根本局限:
来自人类反馈的强化学习有一个根本的局限性:它假设人类可以准确地评估我们的人工智能系统正在执行的任务。今天,人类非常擅长这一点,但随着模型变得越来越强大,他们将能够完成人类更难评估的任务(例如,在大型代码库或科学论文中找到所有缺陷)。我们的模型可能会学会告诉我们的人类评估者他们想听什么,而不是告诉他们真相。
当然也讨论了当时的解决方案:
目前没有已知的无限可扩展的对齐问题解决方案。随着人工智能的继续进步,我们预计会遇到一些我们在当前系统中尚未观察到的新对齐问题。其中一些问题我们现在预料到,其中一些将是全新的。
我们认为,找到一个无限可扩展的解决方案可能非常困难。相反,我们的目标是一种更务实的方法:建立和调整一个系统,该系统可以比人类更快、更好地进行对齐研究。
语言模型特别适合自动化对齐研究,因为它们“预加载”了阅读互联网时关于人类价值观的大量知识和信息。开箱即用,他们不是独立的代理人,因此不会在世界上追求自己的目标。
不过这里深入讨论下去难免艰深,不如换一个思路从早就清楚的情境中来讨论对齐的问题,在早已被AI攻克的中国象棋和围棋中,有一个说法叫做“棋理”,意思是下一步棋的目的是什么?用现在的说法就是和下棋人的思路“对齐”,假设普通人能看2步、业余高手看5步、职业高手看10步(数字仅为示意),那么现在的AI可能已经30步起步。但问题在于,没有受过训练的普通人看职业高手下棋就像职业高手看AI超级深度演算后的棋路一样是看不懂的。原因在于普通人下棋的计算深度(长上下文)的极限达不到职业选手的深度所以无法“对齐”,只能step by step看事后的拆解,职业高手面对AI也是一样,需要借助软件反复琢磨。其实到这里已经很清楚了,OpenAI所谓的超级对齐计划其实是创造一个通用的“强力辅助软件”来帮助人类对齐认知,因为人的带宽有限有时候无法理解机器的输出(比如总结机器几秒钟人类几十分钟),只能让机器尽量适配人类的带宽而不是相反。