即刻App年轻人的同好社区
下载
App内打开
Szhans
2年前
AI 新知: 杨立昆的「类人 AI 」模型取得突破性进展

杨立昆一向不认为 GPT 能走向通用智能, 现在他交出了具有一份突破性的答卷,产生了广泛的行业影响。近日Meta 发布了关于 I-JEPA 的工作进展——自我监督的计算机视觉,通过预测来学习理解世界。这是第一个基于Lecun 愿景,使人工智能系统像动物和人类一样学习和推理。

尽量面向非专业人士的视角, 你理解越多, 越能想象和驾驭技术变革的边界。

✨ 导读:

- 对于AI来说, 获取有关世界的常识,是极为困难的任务;而对于生物智能来说, 常识的感知和学习是潜移默化,反而是容易和自然的。(生物智能的基础——多感官——就是AI目前无法企及的)

- I-JEPA 作为一种新型的自监督学习模型,想要解决这个关键难题。 自监督学习模型,顾名思义, 不依赖标签数据进行学习,而是从数据本身的结构中学习知识。它使用数据本身作为标签进行学习。(例如,给定一个图像,自监督学习模型可能会被训练预测图像的某种颜色,或者预测图像的一个变形) 。

- JEPA全称是 Joint Embedding Predictive Architecture(联合嵌入预测架构),这里简单比喻,供参考。想象一下,我们在听一首交响乐,每个乐器都有自己的旋律和声音,但只有它们融合在一起,我们才能更完整感受整首曲目的美妙。JEPA模型不是独立处理每个数据输入,而是整合起来,预测未知的部分。JEPA 想要融合,形成完整的表达。

- JEPA 模型和GPT有显著的差异。GPT 模型更像是一种独奏曲,每一个音符都被连续演奏(预测下一个标记的方式),每一个新的音符也同时是对前一个音符的预期(即自回归)。然而,它的视野和范围有限;而JEPA 会在各个乐曲之间进行预测,实现更复杂有效的模式,以接近人类理解世界常识的方式。(图2)

- I-JEPA中的预测器可以被看作是一个原始(且受限)的世界模型,能够从部分可观察的上下文中模拟静态图像中的空间不确定性,而且重要的是,这个世界模型是语义的。(图3)一个比喻供启发,如果世界视为一个超级复杂的博物馆,每一部分都包含着各自的故事和秘密,那么I-JEPA就像是这个博物馆的探索者和解说员。这个预测器就如同他们手中的照明工具,照亮博物馆的角落,去尝试理解和预测藏在阴影中的东西。

📖 全文如下:


原标题为《I-JEPA:基于Yann LeCun理念的首个更接近人类的AI模型》


去年,Meta的首席AI科学家Yann LeCun提出了一种新的架构,旨在克服现今即使是最先进的AI系统的关键限制。他的愿景是创建可以学习世界运行方式的内部模型的机器,以便它们可以更快地学习,规划如何完成复杂任务,并轻松适应陌生的情况。

我们很高兴介绍基于LeCun愿景的关键组成部分的首个AI模型。这个模型,即Image Joint Embedding Predictive Architecture(I-JEPA),通过创建外部世界的内部模型来学习,该模型将图像的抽象表示(而不是像素本身)进行比较。I-JEPA在多个计算机视觉任务上表现出强大的性能,并且比其他广泛使用的计算机视觉模型更具计算效率。I-JEPA学习的表示也可以用于许多不同的应用,而无需进行大量的微调。例如,我们在不到72小时内使用16个A100 GPU训练了一个拥有632M参数的视觉变换器模型,并且在ImageNet上进行低样本分类时,仅使用每类12个标记样本,就达到了最先进的性能。其他方法通常需要使用两到十倍的GPU小时数,并且在使用相同数量的数据进行训练时,错误率更高。

我们将在 CVPR上介绍关于I-JEPA的论文,并且我们也在近期开源了训练代码和模型检查点。

通过自监督学习捕获常识知识

我们在I-JEPA(和更一般的联合嵌入预测架构(JEPA)模型)上的工作建立在这样一个事实上,即人类通过被动地观察世界就能学习到大量关于世界的背景知识。有人假设,这种常识信息是实现诸如有效获取新概念、基础理解和规划等智能行为的关键。

AI研究人员试图设计学习算法来捕捉关于世界的常识背景知识,然后将其编码成算法以后可以访问的数字表示。为了有效,系统必须以自监督的方式学习这些表示——也就是说,直接从未标记的数据(如图像或声音)中学习,而不是从手动组装的标记数据集中学习。

从高层次来看,JEPA旨在预测输入部分(如图像或文本片段)的表示,这些输入部分来自同一输入的其他部分。因为它不涉及将来自图像的多个视图/增强的表示折叠为一个单一点,因此我们希望JEPA能够避免另一种广泛使用的方法——即基于不变性的预训练所关联的偏见和问题。

与此同时,通过预测高层次抽象的表示,而不是直接预测像素值,我们希望能够直接学习有用的表示,同时也避免生成方法的限制,这些方法是近期引发了很大兴趣的大型语言模型的基础。

相比之下,生成架构是通过删除或扭曲模型输入的部分来学习的——例如,擦去照片的一部分或隐藏文本段落中的一些单词。然后他们试图预测被破坏或丢失的像素或单词。然而,生成方法的一个显著缺点是,模型试图填补每一个缺失的信息,即使世界本身就是不可预测的。结果,生成方法可能会犯一个人永远不会犯的错误,因为它们过于关注无关的细节,而没有捕捉到高级别的可预测概念。例如,对于生成模型来说,准确生成人类手部是极其困难的。(他们常常会添加额外的手指或者犯其他明显的错误。)

[图2:自我监督学习的常见架构,其中系统学习捕获其输入之间的关系。目标是给不兼容的输入分配高能量,并给兼容的输入分配低能量。(a) 联合嵌入(不变)架构学习对兼容输入x,y输出相似的嵌入,对不兼容的输入输出不相似的嵌入。(b) 生成架构学习直接从兼容的信号x重构信号y,使用一个基于额外的(可能是潜在的)变量z进行条件设置的解码器网络以便于重构。(c) 联合嵌入预测架构学习从兼容信号x预测信号y的嵌入,使用一个基于额外的(可能是潜在的)变访问的数字表示。为了有效,系统必须以自监督的方式学习这些表示——也就是说,直接从未标记的数据(如图像或声音)中学习,而不是从手动组装的标记数据集中学习。]

自我监督学习的常见架构,其中系统学习捕获其输入之间的关系。目标是给不兼容的输入分配高能量,并给兼容的输入分配低能量。(a) 联合嵌入(不变)架构学习对兼容输入x,y输出相似的嵌入,对不兼容的输入输出不相似的嵌入。(b) 生成架构学习直接从兼容的信号x重构信号y,使用一个基于额外的(可能是潜在的)变量z进行条件设置的解码器网络以便于重构。(c) 联合嵌入预测架构学习从兼容信号x预测信号y的嵌入,使用一个基于额外的(可能是潜在的)变访问的数字表示。为了有效,系统必须以自监督的方式学习这些表示——也就是说,直接从未标记的数据(如图像或声音)中学习,而不是从手动组装的标记数据集中学习。

从高层次来看,JEPA旨在预测输入部分(如图像或文本片段)的表示,这些输入部分来自同一输入的其他部分。因为它不涉及将来自图像的多个视图/增强的表示折叠为一个单一点,因此我们希望JEPA能够避免另一种广泛使用的方法——即基于不变性的预训练所关联的偏见和问题。

与此同时,通过预测高层次抽象的表示,而不是直接预测像素值,我们希望能够直接学习有用的表示,同时也避免生成方法的限制,这些方法是近期引发了很大兴趣的大型语言模型的基础。

相比之下,生成架构是通过删除或扭曲模型输入的部分来学习的——例如,擦去照片的一部分或隐藏文本段落中的一些单词。然后他们试图预测被破坏或丢失的像素或单词。然而,生成方法的一个显著缺点是,模型试图填补每一个缺失的信息,即使世界本身就是不可预测的。结果,生成方法可能会犯一个人永远不会犯的错误,因为它们过于关注无关的细节,而没有捕捉到高级别的可预测概念。例如,对于生成模型来说,准确生成人类手部是极其困难的。(他们常常会添加额外的手指或者犯其他明显的错误。)



一步走向广泛应用的联合嵌入预测架构

I-JEPA背后的想法是预测在一个更接近人们通常理解的抽象表示中的缺失信息。与在像素/标记空间中预测的生成方法相比,I-JEPA使用不必要的像素级详细信息可能被消除的抽象预测目标,从而引导模型学习更多的语义特征。另一个引导I-JEPA生成语义表示的核心设计选择是所提出的多块遮蔽策略。具体来说,我们证明了预测包含语义信息的大块(具有足够大的规模),使用富有信息性的(空间分布的)上下文的重要性。

图像联合嵌入预测架构(I-JEPA)使用一个单独的上下文块来预测源自同一图像的各种目标块的表示。上下文编码器是一个视觉转换器(ViT),只处理可见的上下文块。预测器是一个狭窄的ViT,它接收上下文编码器的输出,并预测特定位置的目标块的表示,这是基于目标的位置令牌(以颜色显示)。目标表示对应于目标编码器的输出,其权重在每次迭代时通过上下文编码器权重的指数移动平均值进行更新。

I-JEPA中的预测器可以被看作是一个原始(且受限)的世界模型,能够从部分可观察的上下文中模拟静态图像中的空间不确定性。更重要的是,这个世界模型是语义的,因为它预测了图像中未见区域的高级别信息,而不是像素级别的细节。

(图3 说明预测器如何学习模拟世界的语义。对于每一张图像,蓝色框外的部分被编码并作为上下文提供给预测器。预测器为它预期在蓝色框内区域的内容输出一个表示。为了可视化预测,我们训练了一个生成模型,该模型生成由预测器输出所表示的内容的草图,并在蓝色框内显示一个样本输出。预测器显然认识到应该填充什么部分(狗的头顶,鸟的腿,狼的腿,建筑物的另一侧。)

为了理解模型捕获的是什么,我们训练了一个随机解码器,将I-JEPA预测的表示映射回像素空间,这显示了模型在探测蓝色框内的预测时的输出。这种定性评估显示,该模型正确地捕捉了位置的不确定性,并生成了具有正确姿态的高级对象部分(例如,狗的头,狼的前腿)。简而言之,I-JEPA能够在不丢弃图像中的局部位置信息的情况下,学习对象部分的高级表示。

更高的效率和强大的性能

I-JEPA预训练也是计算效率高的。它不涉及与应用更计算密集的数据增强来产生多视图相关的任何开销。只需要一个视图的图像被目标编码器处理,只有上下文块需要被上下文编码器处理。

我们实证性地发现,I-JEPA在没有使用手工制作的视图增强的情况下,学习到了强大的开箱即用的语义表示 - 见图3。在ImageNet-1K线性探测和半监督评估中,它还优于像素和标记重建方法。

I-JEPA也与以前依赖手工制作的数据增强的预训练方法在语义任务上具有竞争力。与这些方法相比,I-JEPA在像对象计数和深度预测等低级视觉任务上表现更好。通过使用一个更简单的模型,具有更少的刚性归纳偏差,I-JEPA可以应用于更广泛的任务集。低次分类准确性:在ImageNet-1k上进行半监督评估,只使用1%的标签(每个类别大约有12个标记的图像)。

一步接近人类智能水平的AI

I-JEPA展示了无需通过手工制作的图像变换编码额外知识,就能学习到具有竞争力的开箱即用的图像表示的架构的潜力。特别有趣的是推进JEPAs从更丰富的模式中学习更通用的世界模型,例如,使人能够从短暂的上下文中预测视频中未来事件的长远的空间和时间预测,并将这些预测条件化在音频或文本提示上。

我们期待将JEPA方法扩展到其他领域,如图像文本配对数据和视频数据。在未来,JEPA模型可能对视频理解等任务有激动人心的应用。

我们相信,通过预训练模型来模拟世界的能力,我们将离构建具有真正人类水平智能的AI更近一步。

原文链接:ai.facebook.com

🌳 后记:

一些深入理解相关的prompts,可以直接拿出和GPT们交流,方便深入理解这些新知。

- 让我们先梳理几个基础的认知脚手架:什么是自监督模型和自回归模型,它和其他类型的主要差异?

- JEPA模型的预训练特点上和GPT的差异,例如在预训练层面上,它是通过视觉学习与单纯从语言数据语料学习有什么不同?

- 请介绍 GPT 作为自回归模型,主要预测特点。

- JEPA模型的和GPT 其他方面的差异,还有哪些?

- 能否将JEPA看成交响乐, 而把GPT当成单个乐器的演奏?

- 如何更容易理解并记住 JEPA 这个名称,请以史蒂芬·平克的写作风格介绍一下?(以交响乐的比喻为基础)

- RLHF 的环节Reinforcement Learning from Human Feedback ,即以强化学习方式依据人类反馈优化语言模型, 不存在于JEPA模型吗?

- 请结合原文内容,重新解释一下生物智能远比AI 强大,例如从感官输入、多感官整合、情绪建构等角度展开一下。
227

来自圈子

圈子图片

AI探索站

101248人已经加入