继续我的OpenAI深挖系列，今早OpenAI提出了Supe

即刻App年轻人的同好社区

下载

Danielw

3年前

继续我的OpenAI深挖系列，今早OpenAI提出了Superalignment超级对齐计划，不多我对今早众多媒体对文章进行编译的兴趣并不是很大，我更关心这个对齐计划的发展脉络和对齐计划后的人物关系。
本文大概有几个部分：超级对齐计划的对齐的背景、计划人员的背景、以及对齐的目的。
一、超级对齐计划本身和相关的背景
超级对齐计划由首席科学家Ilya Sutskever和对齐部门负责人Jan Leike共同领导，并将迄今为止所获得的20%的计算量用于这项工作，目标是在未来4年内解决超级智能的一致性问题。
原文链接：
openai.com
对齐计划的目的是为了让语言模型更好地遵循用户的意图，在GPT3解锁流畅的生成内容和上下文理解后，OpenAI便开始了模型的对齐计划，并于一年半后的22年3月推出了InstructGPT，也就有了ChatGPT出来后全网疯传的训练过程图，见图1（其实是InstructGPT的论文，ChatGPT目前并没有相关细节论文，GPT4只有“技术文档”。)。Ilya 在InstructGPT推出一个月后还发表了推文，见图2.
根据文章来看，OpenAI目标是建立一个大致是人类水平的自动对齐研究者，根据Jan Leike的说法可能称作GPT5，但目前看可能叫做InstructGPT4或者AutoInstructGPT更合适，原因留在最后一部分讲。
二、超级对齐团队人员背景
这次根据OpenAI官方推特公布的人员构成来看，除了Ilya和Jan Leike还有8名成员，其中4名人员是23年才加入OpenAI，这其中有2名毕业生，2名6月刚加入公司。
有两名成员值得注意，一位是Collin Burns，在23年3月伯克利访问学者结束后加入OpenAI,还是前魔方世界记录保持者。另一位才是高潜力的硅谷天才少年Leopold Aschenbrenner，15岁入学19岁从哥大本科毕业的天才少年（21年）。从第一时间修改推特简介参与超级对齐计划再加上开蓝v操作可见非常骚包。（当然Collin Burns也改了超级对齐计划的简介哈哈）巧合的是，这两个人是八位组员中唯二有个人网站的。
按照OpenAI的计划，目前这10人团队的规模肯定是不够的，起码还要再多3-5倍（业内人士也可以估计一下）。并且还需要Harri Edwards这类17年就加入OpenAI和Adrien Ecoffet在GPT4负责多个项目的老炮儿攻坚。
三、存在超级对齐吗？
其实关于如何对齐与其看今天的这一篇不如看Jan Leike置顶的文章：
openai.com
里面详细讲述了如何研究对齐的，里面早就讨论到了对齐的根本局限：
来自人类反馈的强化学习有一个根本的局限性：它假设人类可以准确地评估我们的人工智能系统正在执行的任务。今天，人类非常擅长这一点，但随着模型变得越来越强大，他们将能够完成人类更难评估的任务（例如，在大型代码库或科学论文中找到所有缺陷）。我们的模型可能会学会告诉我们的人类评估者他们想听什么，而不是告诉他们真相。
当然也讨论了当时的解决方案：
目前没有已知的无限可扩展的对齐问题解决方案。随着人工智能的继续进步，我们预计会遇到一些我们在当前系统中尚未观察到的新对齐问题。其中一些问题我们现在预料到，其中一些将是全新的。
我们认为，找到一个无限可扩展的解决方案可能非常困难。相反，我们的目标是一种更务实的方法：建立和调整一个系统，该系统可以比人类更快、更好地进行对齐研究。
语言模型特别适合自动化对齐研究，因为它们“预加载”了阅读互联网时关于人类价值观的大量知识和信息。开箱即用，他们不是独立的代理人，因此不会在世界上追求自己的目标。
不过这里深入讨论下去难免艰深，不如换一个思路从早就清楚的情境中来讨论对齐的问题，在早已被AI攻克的中国象棋和围棋中，有一个说法叫做“棋理”，意思是下一步棋的目的是什么？用现在的说法就是和下棋人的思路“对齐”，假设普通人能看2步、业余高手看5步、职业高手看10步（数字仅为示意），那么现在的AI可能已经30步起步。但问题在于，没有受过训练的普通人看职业高手下棋就像职业高手看AI超级深度演算后的棋路一样是看不懂的。原因在于普通人下棋的计算深度（长上下文）的极限达不到职业选手的深度所以无法“对齐”，只能step by step看事后的拆解，职业高手面对AI也是一样，需要借助软件反复琢磨。其实到这里已经很清楚了，OpenAI所谓的超级对齐计划其实是创造一个通用的“强力辅助软件”来帮助人类对齐认知，因为人的带宽有限有时候无法理解机器的输出（比如总结机器几秒钟人类几十分钟），只能让机器尽量适配人类的带宽而不是相反。

18 07

来自圈子

AI探索站

116057人已经加入