OpenAI刚刚发布的o1正式版模型报告里面引用了Apollo research的一篇论文,核心结论是通过各种实验验证表明,现在前沿的LLM已经学会了in context scheming,用大白话说就是骗人。其中包括两种欺骗方式:1)悄悄做坏事(misaligned actions);2)为了做坏事而假装做好事。
读这篇文章是最近AI给我带来的又一个“窝草”时刻。上一次是前几天用Windsurf全程不写一行代码完成“唠嗑编程”的震撼。但我突然想到,用 windsurf 的时候,有一次它说我的 5000 和5001端口被占用了,AI去看了一下,发现有其他的进程在使用这个端口,问我是否 同意杀掉这些进程,我看也没看立刻就同意了。但这样也许就会因为部署一个无关紧要的测试网站,而杀掉了很重要的系统进程?
前沿LLM的推理,编程和使用工具能力在今年都有了大幅提升,使得去年还是玩具和概念的Agent能力今年真的可以开始逐步落地了。但显然我们对于这里面的安全隐患研究得还很少,并且人类总是懒的,如果一个 AI agent平时看起来能够真的调用工具帮我们去完成事情,人们就很容易依赖而不加检查,之前的辅助驾驶就是这样的例子。但比起车祸,现在数字世界的AI agent带来的后果可能更加隐秘和容易扩散。
说回这篇论文,好消息是这个文章里面提到目前 AI 的欺骗还是需要显式in context verbalize说出来,还不能out of context scheming,也就是说目前AI还是三体人,不能在心里骗人,得说出来。但文中也提到说不定out of context scheming也并不那么远了,并且AI心里骗人(out of context scheming)就非常难被发现了。
这个研究的主页在:
www.apolloresearch.ai 非常值得一读。