作为一个古典产品经理,最近听了很多AI相关的播客,有很多专业名词听不懂,所以系统性整理翻译成我这种小白能听懂的话进行学习,再分享出来。今天先整理深度学习。
什么是深度学习?
AI比作一个正在学习的孩子,那么深度学习就是这位孩子最重要的“学习方式”。它通过模仿人脑的神经网络,让计算机能够从大量经验(数据)中自己“领悟”规律,从而学会识别图像、理解语言、甚至做出预测。
它是怎么发展的?
1958年感知机-现代深度学习的基石
感知机就像一个非常认真但又特别死板的新手守门员。他的任务很简单:根据看到的有限信息,决定是否出击拦截飞来的足球。
观察到的信息:球速、对手方位、风向,等同于输入信号(接收待处理的外部信息 );
对不同信息的重视程度:更相信球速,不太在意风向,等同于确定权重(代表不同输入信号的重要性 );
心里快速计算:“球速太快 + 对手离得很近 = 危险!,等同于加权求和(将所有输入信号乘以其权重后相加,得到一个总分 );
判断自己的出击原则:只有觉得“会进球”时才行动拦截,等同于于阈值/偏置(一个预设的界限,决定了神经元被激活的难易程度 );
最终决定:出击 或 不动相当于输出计算后的结果,等同于输出一个简单的二元决策(是/否,1/0)。
这个守门员(感知机)通过反复训练,能非常好地完成一些规则清晰、界限分明的任务。比如,就像判断“如果下雨并且目的地没有遮挡物,就带伞”一样,他可以学会处理“与门”、“或门”这样的简单逻辑电路 。
但他的局限性也很明显:他只会画一条“直线”来划分世界。想象一下“异或”这个问题:球要么来自左边,要么来自右边时(但不能同时来自两个方向)才需要出击。这个规则无法用一条直线完美划分所有情况,于是这个死板的守门员就懵了,无法做出正确判断 。
这正是早期单一感知机的核心瓶颈,它只能解决“线性可分”的问题 。 那么,如何让这个守门员变得更聪明呢?答案是:不依赖一个人,而是组建一个团队! 将无数个简单的“感知机”连接成多层网络,就构成了现代深度学习的基石,使得图像识别、自然语言处理等复杂任务成为可能 。
1982年 循环神经网络 (RNN)-对文本等序列数据进行建模。
AI理解一段话(序列数据)的过程,想象成一个人如何阅读和理解一个故事。把AI模型想象成理解故事的“读者”。
RNN(循环神经网络) 像一个记忆力有限、必须逐字阅读的读者。
工作方式:他必须从第一个字开始,一个一个地按顺序读下去。他一边读,一边努力记住前面看到的重要内容。当他读到第100个字的时候,他可能还对第1、2个字有印象,但记忆已经变得很模糊了。
缺点:难以抓住“长距离依赖”。比如故事开头说“小明有一只宠物狗”,到结尾才说“这只狗很聪明”。如果中间隔了几百个字,这位读者很可能已经忘了“这只狗”指的是小明的狗,而不是别人的狗。而且,因为他必须逐字阅读,速度很慢,无法并行处理信
2017 年:Transformers 和注意力机制
Transformer 则像一个拥有“上帝视角”的超级读者。
核心武器:自注意力机制。当他拿到一篇文章时,他不需要从头开始读。他可以瞬间同时看到文章里的所有词语。更重要的是,对于文中的每一个词,他都能立刻分析出文中所有其他词与它的关联程度。
工作方式:比如看到句子“这只苹果很甜,所以小明吃了它”里的“它”这个词时,Transformer能瞬间判断出“它”与“苹果”关系最密切,与“甜”关系次之,与“小明”也有一定关系。这样,它就能轻松理解“它”指代的是“苹果”,而不会搞错。
优点:这种机制让它特别擅长处理长篇文章,能轻松捕捉相隔很远词语之间的联系。而且,因为可以同时处理所有信息,它的学习速度非常快。
为什么这个区别如此重要?
正是Transformer这种能高效并行处理和精准把握全局信息的能力,让它成为了当前人工智能大语言模型(比如ChatGPT、文心一言等)的基石技术。我们可以说,Transformer架构的出现,直接推动了我们今天看到的大语言模型技术的飞跃。
2018 年至今Vision Transformers和大规模语言模型 (LLM)
如果把大语言模型(LLM)看作一个聪明的“大脑”(思维与逻辑中心)专门理解和生成文字。它通过阅读海量文本学到知识、逻辑和语言能力。那么 Vision Transformer (ViT) 就是给这个大脑装上了一双“眼睛”(视觉系统),专门理解和分析图片。它用理解文字的逻辑来“看懂”图像。而多模态模型则是让这个大脑能同时处理眼睛看到的、耳朵听到的等各种信号,成为一个更全面的“通才”。(协调感官的“总指挥” ),同时处理文字、图片、声音等多种信息,并理解它们之间的联系。
👁️ 给AI一双“眼睛”:Vision Transformer
传统AI看图片的方式,有点像我们拿着一个小放大镜,一小块一小块地、局部地查看图片,然后再拼凑出整体信息。而Vision Transformer 带来了一种革命性的新方法
工作方式:ViT会把一张完整的图片,像撕便签纸一样,撕成许多个有固定大小的小方块(图像块)。然后,它利用一种叫自注意力机制的技术,让每一个小方块都能和图片上所有其他小方块进行“沟通”,从而一瞬间就把握整张图片的全局信息。
简单类比:这就好比让你看一张“猫追老鼠”的图片。传统的AI可能需要先看到尾巴,再看到身体,最后才拼凑出“这是一只猫”;而Vision Transformer一眼看过去,就能同时注意到“猫”、“老鼠”以及它们的“相对位置”,直接理解“猫在追老鼠”这个场景。
🔄 从“专才”到“通才”:多模态模型
当AI有了处理文字的大脑(LLM)和看懂图像的眼睛(Vision Transformer)之后,一个很自然的想法就是:能不能让它们协同工作,同时理解多种信息?这就是多模态模型做的事。
核心能力:多模态模型能够综合处理和理解文本、图像、音频甚至视频等多种类型(模态)的信息,并挖掘这些信息之间的关联。
多模态实际应用:
视觉问答:你给AI一张图片并问:“图片里的猫是什么颜色的?”它能结合图片(ViT的功能)和理解问题(LLM的功能)给出答案。
AI绘图:你输入一段文字描述(如“一只穿着宇航服的柴犬”),AI就能生成符合描述的图片。这需要模型同时深刻理解文字含义和视觉元素。
智能客服:未来的客服系统可能不仅能看懂你发的产品截图,听懂你的语音描述,还能读懂你的情绪,提供更精准的服务。