Google新发布的GameNGen喊出的口号「GenAI模型=游戏引擎」,正是所有客户端软件开发者最大的「噩梦」,相当于AGI奇点提前到来——
如果AI模型能为每一帧的客户端画面(无论游戏画面还是GUI画面)和用户交互输入,直接端到端的输出正确的下一帧画面,「模拟」客户端软件程序的完整行为,意味着:
不仅不再需要手工开发客户端程序的任何部分,甚至连客户端软件中的每个抽象层也不再需要了——AI不需要在这些抽象层之上生成代码。客户端软件领域的所有技术积累都像被吸入黑洞的物质一样,信息永久丢失。
不过之所以还只是「噩梦」而不是趋势,就是因为要真正实现这种口号,特别是如果想在所有客户端软件领域都实现,是存在根本瓶颈和悖论的。
GameNGen引发的大量讨论中,英伟达的机器人AI大佬讲到了关键:
这个模型更类似NeRF(能把单一画面变成能渲染任意角度画面的3D场景),而不是Sora那样的AI生成视频。
因为这个模型的关键和瓶颈在于海量标注了交互动作的数据——作者用强化学习agent自动玩DOOM,生成了9亿帧带动作标注的数据,让模型学到了DOOM能渲染的每个场景中的每个犄角旮旯。但这种模型无法想象新的场景、无法创造新的交互机制、无法渲染其他游戏画面。
因此GameNGen更多是概念验证,比如验证了用9亿帧数据就可以把整个DOOM程序压缩进一个模型里。在游戏开发领域和具身智能训练领域都还没有增量价值——存在一个巨大的悖论:如果不先手工开发出游戏/虚拟环境的客户端程序,生产出这种游戏/虚拟环境的海量交互数据,AI模型就无法模拟这种游戏/虚拟环境的行为,而如果已经有了手工开发的客户端程序,这种AI模型跟它相比又不具备增量价值。
相反,如果AI要模拟的不是软件交互界面,而是非程序生成的交互环境——现实世界,比如像特斯拉这样,能获取现实世界中的海量摄像头画面和驾驶者交互动作的配对数据,反而可以得到有实用价值的东西,用虚拟环境取代对现实环境的需求,同时不需要手工编程实现这个虚拟环境,而是完全由AI模型来生成和运作。
因此这种噩梦和奇点暂时还不会降临到所有客户端软件开发者的头上,至少在那些搞L4自动驾驶开发和机器人编程的人类工作被消灭掉之前,不用杞人忧天。
A day may come when the courage of men fails,
when the age of men comes crashing down,
but it is not this day!
This day we fight(为人类、为AI、为技术本身,继续建设抽象层)