AI 新知：像大脑一样学习的多模态（极简版起源故事）近

即刻App年轻人的同好社区

下载

Szhans

3年前

AI 新知：像大脑一样学习的多模态（极简版起源故事）

近日，微软放出了多模态大语言模型的重要论文《Language Is Not All You Need 》。预示着今年AI 的下一个重大突破。
那么，什么是多模态学习，有没有一种人人皆可理解的方式，让更多人参与着技术民主化的浪潮呢？答案是乐观和肯定的。

以下内容来自Jeff Dean 去年在TED 做的分享，面向所有人。无需担心技术理解力，更依赖你对大脑本身的好奇心。
原始链接🔗： youtu.be

Jeff Dean 二十多年前加入谷歌，领导着谷歌的人工智能研究与健康部门。

核心内容摘要如下：
（这是我的几点解读，供非专业人士参考）
🧠 神经网络的机器学习突破是来自科学界对大脑的运作规律的理解（它是自下而上的）
🧮 算力是重要且有效的，深度学习突破了识别猫咪、机器翻译到 AlphaGO 等单一任务
🙉 AI的单一任务导向的训练是极为低效的，可以请想象成我们从小失去听觉、嗅觉、味觉（去观看电影的感受）
👂 多模态的思想，是进一步模拟大脑运作，就像生物拥有多种感觉来整合认知世界
🎸像大脑一样多个区域进行超高效率的协作，是学习真正的「奥义」；AI的多模态即对大脑深度的模仿。

部分讲稿如下（适当删减，以便于文字阅读）：

1/ 人工智能可以做什么？
在过去的十年间，AI 在帮助计算机识别物体、理解语言和谈话方面取得的巨大进步。以往的天方夜谭现在一一成为现实。计算机视觉来说，在过去的十年中，电脑快速地发展出了‘看’的能力。这在计算机运用上具有变革性的影响。还有一些了不起的实际应用。可以通过机器学习预测洪水、翻译一百多种语言、预测和诊断疾病。

2/ 让我们来看看构成当代人工智能系统基础的两个关键元素。首先是神经网络，它是解决这些难题的一项重大突破。第二个是运算能力。驱动神经网络运作实际需要大量的运算能力，在过去的十五年，我们做到了，那也是整个人工智能得以发展至此的原因之一。但 Jeff Dean 认为我们做错了几件事～

3/ AI 小历史。数十年前几乎从计算机科学最早出现，人们就想建造可以识别语言及理解谈话的电脑。最初的方法一般是人们手动写下完成难题所需的算法，但成效一般。过去的十五年间，一个方法出其不意地一次性解决了所有难题：神经网络。神经网络并非一个新想法。背后的理念出现于1960和70年代。神经网络如同其字面意思一样，是一连串互相连接的神经元。它们大致上效仿了人体真正神经元的特性。

4/ 神经网络如何计算？这种系统中的一个独立神经元，拥有一组输入信息，每组输入信息有对应的比重，神经元的信息输出就等于那些输入信息乘以它们对应的比重。其实挺简单的，无数神经元协同运作，就可以学习复杂的东西。我们如何在神经网络中学习的？其实，在学习过程中，比重在不断被微调，增强一些东西的影响，削弱其他的影响。

5/ Jeff Dean对神经网络的兴趣，始于1990年本科阶段时学到的一门相关课程。那时，神经网络在精细问题的解决上取得了惊人的成果，但还达不到完成真实世界中重要工作的程度。他觉得我们可能只是需要更强的运算能力。明尼苏达大学当时有一个32位处理器。Jeff Dean想：“如果有更强的运算能力，我们真能用神经网络干点大事。” 所以决定以神经网络的并行训练作为毕业论文的课题，理念是将电脑或电脑系统中所有的处理器运用到同一件任务上，用来训练神经网络。 32位处理器，哇，我们肯定能用它做点大事。但我错了。

6/ Jeff Dean 意识到如果想用神经网络做些引人注目的事情，所需的算力大概是 90年代算力的一百万倍。但从大概2005年开始，多亏了摩尔定律，我们真的开始拥有算力了，世界上一些大学里的研究员们开始成功用神经网络完成各种任务。和其他几个在谷歌的同事听闻了这些成功事例，于是决定启动一个项目，训练大型神经网络。

7/ 用油管视频里随机截取的一千万帧照片对其进行训练。这个系统发展出了能够识别所有不同种类物体的能力，然后因为是油管的关系，所以它发展出了识别猫的能力。油管上全是猫。 😻 但让它如此引人注目的是从未有人告诉过这个系统猫到底是什么。仅仅依靠数据的形态规律，它就能自己琢磨出来猫究竟是什么。

8/ 在那个时候，我们还对如何打造一个更适合神经网络运算所需的计算机硬件感兴趣。神经网络运算有两个特性。第一个是它们对精准度要求很低。几个有效位就够了，不需要六七个那么多。第二个是所有算法都普遍由多个不同的矩阵和向量的运算组成。它会非常适用于神经网络运算，虽然你无法用它做太多别的事，这是我们制作的第一个成品，TPU v1。 “TPU”是张量处理器的意思。多年来，这一技术运用于谷歌搜索、翻译、以及AlphaGo围棋比赛，所以李世石和柯洁可能没意识到，他们其实是在和TPU架构比赛。

9/ 我们仍然做错了很多事，讲三件我们做错的事情，以及如何修正他们。第一个是，现如今的大部分神经网络只被训练进行单一种类的任务。你训练它去做一件你很关心的事情，但这是一项非常繁重的工作。你需要搜索数据组，选择这个问题所需的网络架构，接着随机分配起始比重，然后为调整比重进行大量运算。到最后，如果你幸运的话，可以得到一个非常适用于你关心的问题的模型。但如果你一直这样做，到最后会得到几千个独立的模型，每个可能都很有用，但都只针对某个单一类型的问题。

10/ 想一想人类是怎样学习的。想象我们沉浸于钻研园艺，尝试垂直水培园艺。无需为此重新学习一遍，我已经掌握的有关植物的知识。知道怎么把植物放进洞里，怎么浇水，以及植物需要光照，我只需要整合这些知识用以学习新的技术。（大脑整合了不同维度的知识和模型）

11/ 电脑也可以这样运作，但目前还未实现。为了避免每次学习新东西时忘记之前的知识，我们可以训练一个多任务处理模型，该模型的每个部分都有自己的专长，能够完成成千上万种不同的任务。假设我们有一个能完成一千种任务的模型，当第一千零一种任务出现时，我们可以整合已有的和新任务相关的知识，更快地完成这项新任务。就像你面临新的问题时，能够快速识别已知并能够帮助解决这些新问题的知识一样。

12/ 第二个问题是，大部分现今的模型只能应对一种形态的数据，图片、文字或语音，但无法做到一网打尽。但想一想人类如何在这世上生活。你不断地动用你所有的感官去学习，去做出反应，去搞清楚现在应该做什么。这样显然更加合理，我们也可以用同样的方式建造模型。

13/ 我们可以建造一个可以接收所有不同种类数据的模型，文字，图像，语音，然后把它们融合在一起，这样无论这个模型看到文字“豹子”，看到豹子的视频，还是听到有人说出“豹子”这个词它都会触发同样的反应：一个豹子的概念可以应对很多种不同的数据输入项，甚至是非人工的输入项，例如基因序列， 3D点云数据，当然也包括图片、文字和影像。

14/ 第三个问题是现有人工智能模型过于稠密，这导致我们在执行某项任务时必须完全激活整个模型。与之相反，人脑的不同区块专注于不同的工作。我们可以制造一种激活反应较稀松的模型，训练时，模型可以学习哪个区块适用于哪个领域。此类模型高效，因为我们只使用完成任务所需的区块。解决这三个问题后，我们可以训练几个通用模型，能够应对成千上万件事情，并整合不同数据形态。我们已经制造了一种符合以上条件的模型，叫做“Pathways”。

15/ 我们的理念是这个模型可以完成成千上万种不同类型的任务，然后我们可以逐步增加新的任务，它也可以同时处理各种形态的数据，然后逐步学习新技能，并按需为不同任务启动不同区块。我们对此感到非常兴奋，我们认为这将是人工智能系统建造迈出的重要一步。

16/ 浅谈一下什么是可信赖的AI。我们要确保强大的人工智能系统造福所有人，但也要考虑公平性、可解释性、私密性和安全性。为训练这些模型完成成千上万种任务，我们需要大量数据，并确保数据的采集代表不同的社群和情况。数据担忧只是可靠人工智能这个议题的一部分。2018年，谷歌发表了开发此类科技时应注意的人工智能守则。

17/ 这帮助指导了我们在研究领域和产品中使用人工智能。这对于思考复杂问题和在社会中应用人工智能非常有帮助和重要。我们不断更新这些准则，它们是现在研究的热点领域。从只能识别数据中的模式到通用智能系统，它们赋予我们解决人类面临的重大问题的能力。例如，我们可以诊断更多疾病，设计出更好的药品，优化教育系统，解决全球变暖等复杂问题。这些系统需要来自世界各地的多学科专家共同协作。

18/ 将人工智能和你所在的领域相结合，从而推动产业的进程。我看到了许多计算机科学的优势，以及在过去的几十年中计算机科学如何帮助几百万人更好地理解世界。今天的人工智能拥有帮助数十亿人的潜力。

我们真的生活在一个振奋人心的时代。谢谢。

13:29

143 18109

来自圈子

AI探索站

116053人已经加入