「AI的下一个重大突破将源自于能够理解视觉世界及其变化的系统,因此我们启动了“通用世界模型”(general world models)的新长期研究。」
research.runwayml.com🎬 在Runway官网的一条3分钟视频中看到对「通用世界模型」的形象解释,脚本如下:
假设未来AI革命的新前沿,真正能够开启创新时代的模型,是那些更像我家狗狗Reuben那样思考的AI模型。
大语言模型(LLMs)现今已无处不在。它们可以创作诗歌、文章乃至电影。这些模型还能帮助我们头脑风暴,寻找新想法或新素材。
它们的工作原理是预测文本序列中的下一个标记(Token),比如预测句子中的下一个词。
显然,模型掌握的语句越多,其生成新语句的能力就越强。随着预测能力的增强,它们对世界及其模式的理解也越来越深入。
这些大型模型为人工智能领域带来了全新的范式:大模型加大数据,带来了对世界更深的认知。
但LLMs只能理解语言。如果我们把这种大数据和大模型的方法应用到视频生成上会怎样呢?这就是我们所称的通用世界模型(GWMs)。
我们认为,它们是下一个重大的突破。与LLMs相似,通用世界模型处理的是大量数据,不仅限于文本,还包括视频、图像和音频——这些都是理解世界如何运作所必需的。
有了这些信息,模型就会为自己构建一个心智地图。这时候就轮到我的狗狗Reuben出场了。
Reuben根据他所了解的事物,也形成了一个世界的内部模型。例如,他知道如果沿这条路走,我们去公园的可能性就会更大;如果走另一条路,就会遇到一只总是怪怪地看他的狗。他还知道在某个地点通常会有鸡肉碎屑,以及哪些被称作宠物店的地方会有他喜欢的零食。一旦到了公园,就会发生许多狗狗间的嗅探行为😊。
凭借这些数据——视觉、声音和事物之间的关系——Reuben能够像通用世界模型一样,预测某些结果并调整他的行为。
最令人惊叹的是,这些模型能够将其对世界的理解推广到新的、未见过的数据上。它们知道如何根据对世界的了解来预测未来,就像Reuben知道避开那些看他不顺眼的狗,并且知道怎样带我们进入他从未去过的宠物店一样。
我们相信,通过训练这些模型预测序列中的下一个画面或标记,这些模型将学到关于世界的更多细节,包括“为何”和“如何”等问题。
这意味着不久的将来,通用世界模型将使我们能够模拟出更贴近现实或像Reuben在他小小的脑海中构建的那些世界。
因此,是的,AI的下一波前沿将更加类似于我们现在所讨论的这种形式。