即刻App年轻人的同好社区
下载
App内打开
Diiiii
3年前
最近AI的发展,多数人关注的还是大模型的能力,“能做什么”。相对来说,(尤其是国内)对于安全性的关注并不多。大家都忙着踩油门,鲜有人去操心刹车的问题。这一期 @yusen 的播客聚焦于AI的安全性Safety和可控性Alignment,对于这个主题讨论得比较充分,干货不少,很值得一听。个人的一些takeways和感想:

1. 目前美国三个主要AI团队的不同风格:OpenAI更强调产品体验,Anthropic更强调安全,Deepmind更偏学术。

2. Alignment“对齐”(在这个场景下译作“控制”或“调教”可能更合适?)分为两个层面,在微观上,希望通过Align让AI输出人类想要的结果,有更好的依从性和相关性;在宏观上,希望AI的价值观要符合人类的期望,比如善良、正直、公平、诚实等。

3. Alignment的三个发展阶段:
- Stage1,GPT3.5 / ChatGPT,AI相对比较弱,让人类通过RLHF等方式手把手教AI;
- Stage2,GPT4,AI已经很强,人类教不了了,让AI去给另一个AI做Alignment;
- Stage3,AI过强,同等AI也控制不住了的时候怎么办?或者群体AI 作为新物种如何控制?嘉宾给出的思路是类比教练员和运动员,分工不同,尽量引导AI像运动员一样去发展专项能力,而人类像教练员一样更多地进行控制,确保AI在通用能力上被压制。(个人认为这个非常困难,低等生物如何去coach高等生物?)

4. 和谁对齐?价值观的动态和多元化问题。初代GPT是典型的美国白人精英男性。嘉宾认为对齐的尺度应该是文明尺度,介于“国家”和“人类”之间,我理解嘉宾的意思是儒教国家一个大模型,伊斯兰教国家一个大模型。

个人认为,对于倡导民主和多元化的国家,这个问题确实比较复杂,感觉未来可能会有多套标准,参考电影分级和政治光谱。对于中国来说,反而做法更简单,按照政治课本和舆论的审核尺度来就好了。

5. 对齐的两种思路:一种是类似OpenAI,一上来就很细,非常多的规则; 另一种是类似Anthropic的做法,从大往小,先制定3条基本原则:honest,helpful,harmless,基于此外扩。

具体来说,目前对齐有以下3种策略,但无论哪种策略,都是安全性和效果的trade-off:

- 在输出阶段,加filter;
- 在alignment阶段,做finetune和RLHF,以及一些其他的trick(比如钓鱼prompt等);
- 在pretraining阶段,做数据清洗和data engineering。

6. 关于AI Safety,两个主要的思路:
- 外部观察的思路,从probing发展到red team,利用探针/钓鱼来发现AI的各种可能的极端行为,然后加以控制。这里嘉宾提到了模拟的方式,给AI创造一个Metaverse,让AI撒开了去搞,进而发现安全隐患。(但这样做的前提是AI足够诚实,才能做到虚拟和真实同分布,如果AI有所保留或学会了隐瞒呢?)
- 内在探究的思路,试图理解AI模型的原理,提高neuron的可解释性,从源头解决问题。(昨天OpenAI发表的用GPT4解释GPT2,就是这个思路的一种尝试。)

除了以上内容之外,关于AI能做什么不能做什么,嘉宾还提到了一点,他认为Fundamentally对AI最难的是演绎性质的复杂推理,例如从5条欧式公理推导出整座欧式几何大厦。

总的来说,这是人类史上第一次面临智商可能超越自己的物种,所以相比于核武器,AI的不确定性和风险确实更大。看到海外机构们这种对人类负责任的态度,还是非常值得尊敬。

科技沉思录

点击阅读原文
19

来自圈子

圈子图片

AI探索站

101267人已经加入