👶 AI 里程碑: Meta 正式发布 V-JEPA:AI 多模态理解物理世界的另一条路
2月16号, Meta 正式发布了V-JEPA 和相关重大进展。 在Sora 和Gemini Pro 1.5各种重磅消息的背景,人们容易忽视这条潜在通向通用智能的独特路径的意义——可以先通过观看视频来教机器理解物理世界并为其建模的方法 ,人工智能模型通过学习对世界的理解来规划、推理和完成复杂的任务。
Hans 从技术民主化角度重新梳理、并增加认知科学视角的解读, 帮助感兴趣的朋友初步理解这个模型的独有特点。首发于即刻,转载请使用标准分享手段。
✨ 核心要点:
- V-JEPA 和Sora 走了完全不同的路, 是另一种让机器智能对深入「理解」世界的方式。
- JEPA 全称是 Joint Embedding Predictive Architecture(联合嵌入预测架构),这里做一个隐喻。想象一下我们在听一首交响乐,每个乐器都有自己的旋律和声音,但只有它们融合在一起,我们才能更完整感受整首曲目的美妙。JEPA模型不是独立处理每个数据输入,而是整合起来,预测未知的部分。 这点和GPT有显著的差异。[1] [2]
- V-JEPA 擅长监测和理解物体之间相互作用的方式, 即理解世界模型的早期范例。
- 本着负责任的开放科学精神,Meta 以知识共享非商业许可的方式发布这一模型,供研究人员进一步探索。
🐱 V-JEPA 如何模拟人类观察世界的方式?
人类拥有将来自视网膜的低级信号映射为对世界的语义时空理解的非凡能力,并能综合物体和全局运动等概念。机器学习界的一个长期目标是确定指导人类这种无监督学习的原则或目标。
我们对周围世界的了解,尤其是在生命的早期阶段,大部分都是通过观察获得的。以牛顿第三运动定律来说吧:即使是一个婴儿或一只猫,在从桌子上敲下几件物品并观察其结果后,也能凭直觉得出 "上行必有下行 "的看法。你不需要几个小时的指导,也不需要阅读成千上万本书,就能得出这个结果 [3] 。你的内部世界模型——一种基于世界心理模型的语境理解——会为你预测这些结果,而且效率很高。
V-JEPA 是一组仅使用特征预测目标训练的视觉模型,不使用预训练图像编码器、文本、负面示例、重构或其他监督来源。这些模型在从公共数据集收集的 200 万个视频上进行了训练,并在下游图像和视频任务中进行了评估。 结果表明,通过预测视频特征进行学习可以获得通用的视觉表征,这些表征在基于运动和外观的任务中都表现出色,而且不需要调整模型的参数。
🐦 V-JEPA 突出特点有哪些?
- 自我监督式训练。 由于 V-JEPA 采用的是自监督学习方法,因此完全使用无标签数据进行预训练。只有在预训练后,才会使用标签使模型适应特定任务。(评论区,图a)
- 屏蔽策略。 运用遮挡策略(视频大块区域被遮盖),来增加训练复杂性,而并非针对某个特定行为来接受训练。 (评论区,图b)
- 多层次预测。 能在高层次概念中进行预测,而不担心更底层的细节。例如,视频里有一棵树时,我们人类常常并不关心。V-JEPA 使用特征预测,类似模拟高层次的概念预测。
- 冻结评估。首创的技术 (评论区,图c),这根本改变了之前的训练模式——需要每一次新任务重头来过的全面微调。[4] 用 Hans上面的交响乐隐喻就是,你学了一个乐器,再学一个新的乐器一定相互关联,触类旁通;但而传统机器训练模式难以做到人类模式的「通用性」。
- 更高效率。 这种架构比以前的模型更有效率,无论是在所需标签示例的数量方面,还是在即使是无标签数据的学习上所投入的总精力方面。与试图填补每个缺失像素的生成式方法不同,V-JEPA 可以灵活地丢弃不可预测的信息,从而将训练和采样效率提高 1.5 到 6 倍。
🤖 高级机器智能(AMI )之愿景,以及V-JEPA的下一步
- V-JEPA 还是一个研究模型,目前的工作是感知—理解视频流的数据,从而学习世界的知识。 JEPA中的预测器是作为早期的物理世界模型,帮助你不必看到画面的一切就能从概念中告诉你发生什么。 [5]
- 下一步,则是将这种预测应用规划和决策。 [6]
- 正是非监督的特性(像婴儿看视频式被动学习),可以帮助模型理解视频上下文和更复杂的世界关联关系。
- 相信不远的未来, V-JEPA 将出现AR眼镜和其他应用场景上。
「 V-JEPA是迈向更深入理解世界的一步,这样机器就能实现更广泛的推理和规划。我们的目标是打造先进的机器智能,使其能够像人类一样学习,形成周围世界的内部模型,从而高效地学习、适应和制定计划,为完成复杂任务。」——杨立昆
📖 注释、参考和术语表:
[1] 杨立昆的愿景:类人AI 的突破方向JEPA
m.okjike.com[2] JEPA 模型和GPT有显著的差异。GPT 模型更像是一种独奏曲,每一个音符都被连续演奏(预测下一个标记的方式),每一个新的音符也同时是对下一个音符的预期(即自回归)。然而,它的视野和范围有限;而JEPA 会在各个乐曲之间进行预测,实现更复杂有效的模式,以接近人类理解世界常识的方式。
[3] Hans 注,认知科学家将直觉分为很多维度(语言、音乐、空间、心理和生物等),这里的表述代表直觉物理学。 我们并非天生一块「白板」, 而是基因在大脑内预置了大量回路和算法,在婴儿期就可以极短时间内习得有关世界的知识。 从某种意义上,这侧面说明了复杂动物 「为什么都喜欢玩耍」,对乌鸦、猫咪和婴儿来说,学习在生物神经网络的调参过程上并没有本质区别。
m.okjike.com[4] 全面微调, 代表模型每做一个新任务训练,就要重头全部训练一遍模型, 这样才能更新所有参数的权重。冻结评估解决这一低效的训练模式,让V-JEPA 能跳脱单一任务训练循环。
[5] 原文 V-JEPA:迈向 Yann LeCun 高级机器智能愿景的下一步
ai.meta.com[6] Meta 论文:重新审视从视频学习视觉表征的特征预测
ai.meta.com