即刻App年轻人的同好社区
下载
App内打开
Diiiii
3年前
(1/2)集中恶补了一下最近关于AI的长文章/访谈,尤其是OpenAI的Sam Altman、Ilya Sutskever、Jack Rae这几个人的访谈,以及国内的一些讨论,例如木遥的播客和拾象的内参,还是有一些启发。

1. 关于大模型的本质。Ilya Sutskever认为,LLM是对真实世界数据的一种压缩表示(compressed representations),是真实世界(或者说真实世界中已经被数字化的那部分)在文本空间中的投影。语言模型越好,保真度就越高。“语言模型不仅是个统计模型,它们理解了这个世界的本质。我认为我们的预训练模型已经知道了它们需要知道的关于潜在现实的一切知识。”

Jack Rae进一步认为,可以将这个过程理解为一个压缩过程,对于真实世界中的任务来说,更小的有效描述长度代表了对任务的更好理解,当我们将有效信息无损压缩到最小长度时,就得到了对该任务的最优理解。因此,AGI 基础模型的目标不是对训练集的重建,而是通过压缩实现对训练集以外的信息实现最大限度表示。

语言模型很擅长学习世界,但它们不太擅长输出好的结果,这也是为什么之前的GPT3.5效果不佳的原因(它本应输出更好的结果)。关键是LLM和人类的空间没有对齐,导致有点鸡同鸭讲的感觉,LLM空有一肚子墨水,却没办法按照人类能够理解的方式倒出来。ChatGPT和GPT4增加了RLHF的过程,其实是一个align的过程。当然,RLHF也未必是最优解,LLM时常会有产生幻觉(Hallucinations)的倾向,也是因为对齐的效果不佳。但要理解的是,对齐本身是一个损耗过程,对齐之前的大模型能力更加强大,只不过不足为人道也。未来,仅靠更好的对齐方式就可以更好释放地释放模型原本的潜力,带来效果上的巨大提升。

2. 关于系统1和系统2。和人类的大脑一样,大模型似乎也同时具备系统1和系统2。


“系统1”和“系统2”的说法来自于卡尼曼的《思考快与慢》,但其实类似的观察很多人都提到过。古希腊的柏拉图就提到过用“理性谦逊的战车”来驾驭“热情放纵的马匹”的说法;社会心理学家Jonathan Haidt在著名的那本《象与骑象人》中将它们换成了“骑象人”和“大象”。类似的,弗洛伊德的理论中包含了 “本我”(原始本能)、“超我”(良知)和 “自我”组成,而哈佛大学的托德-罗杰斯和马克斯巴泽曼强调的是“想要的自我 ”(want self) 和 “应该的自我 ”(should self)之间的冲突。最近Tim Urban在新书《What’s Our Problem》中也提到了“原始思维”(Primitive Mind)和“高级思维”(Higher Mind)的划分方式。

我个人的理解,所有的这些划分方式,本质上是大脑在调用不同的功能区,系统1/马匹/大象/本我/想要的自我/原始思维在工作时,调用的是大脑的边缘系统的快捷思维,其优点是能量开销低、速度快、支持多线程,代价是错误多、易受情绪影响;而系统2/战车/骑象人/超我/应该的自我/高级思维在工作时,调用的是大脑的前额叶皮层的理性思维,其优点是错误少,但代价是能量开销大、启动速度慢、只支持单线程。

一直以来,系统2被认为是人类所特有的,是智慧的象征。在木遥的那期播客中提到,“(系统2)慢思考一般认为是人类有的,动物是没有的,或者至少极少数的高等动物,海豚这样的可能会有,但大部分动物是没有的。传统意义上的神经网络模仿的是人的快思考,哪怕像AlphaGO这样会下棋的非常聪明的神经网络,它也只是系统1的快思考…这也是为什么神经网络长期被人诟病,说它是一个黑盒子,因为它没有任何中间的过程,就是一头输入,一头输出。神经网络可能非常深,它中间的模仿函数的网络的结构可能是好多步,但是只是它思考的函数非常复杂,但它仍然没有步骤。它只是一个非常非常复杂的函数,仍然一步到位的从输入到算出来。而大模型的思维链条(Chain of thoughts)是完全不同的方式。它不是从输入一步到输出,它在模仿人类思考的东西,给它一个输入,它先想第一步中间过程,用第一步中间过程想一个第二步中间过程,第二步让过程想第三步中间过程,推出一个结果。一旦你能够建立起这种结构来,你就能够做到快思考不能够做到的事情。因为我们很多人类的思考过程是这样的,你要把一堆信息综合在一起,推出一堆中间结果,最终得到一个我们要的结论。这个东西不要说低等动物,就是比较高级的,哪怕像猫和狗这样的动物,它其实都未必能做到,对吧?猫能够做到一步步想问题,其实有点悬,对吧?但是今天的AI,至少2021年以后的AI开始逐渐能够做到这一点了。这就是我刚才为什么我说它是一个非常本质的飞跃。”

这一点非常有意思。和人类一样,GPT4默认使用的是系统1,错误率会比较高,猜测它这样做的原因是能量开销比较低。但如果你用Chain of thoughts的方式对它进行引导,它的正确率就会高得多,甚至能够发现自己的错误。这是LLM和之前神经网络的一个本质性的区别。


3. 关于AI是否有自主意识?关于这一点,个人认为人们在“什么是自主意识”这一点上是缺乏共识的,缺少标准,所以每个人都自说自话。在LLM的时代,需要建立一套AGI的“智能测试标准”。之前因为硅基过于低级,所以没有类似的需求,一个图灵测试就搞定了。但随着AI发展得越来越近,测试手段也需要与时俱进。我们需要比图灵测试更科学和系统的评价体系。

微软的那篇研究《通用人工智能的火花》,其实本质上就是构建了一种AGI的评测体系,包括多模态测试(我理解是感知智能测试)、coding+数学测试(我理解是逻辑测试)、与世界和人类交互(我理解是沟通测试)等不同的测试单元。当然,这只是微软团队对“智能”的定义。是否还有其他的标准?这是值得思考的。类似的,真格前一段时间为chatGPT和百度文心一言构建了一套测试集,也是相同的思路。@yusen 前两天在即刻中也探讨了类似的问题,比如他认为“是否有爱”、“是否能够思考‘思考’本身”、“是否具有好奇心”、“是否能够发现新知识”、“是否能够生成原创艺术”、“能否解决复杂问题”这些维度都应该是AGI能力范畴之内的,但具体如何定义和评测就是另一个问题了。总之,这就类似于要给AI做智商测试,是个很有趣的思考方向。

关于GPT是否具有意识,Sam Altman和Ilya Sutskever的论点:“我们讨论过,如何知道一个模型是否有意识?Ilya Sutskever说了一种我认为很有趣的想法:如果你训练一个模型,在数据集上极其小心,没有提及“意识”或任何接近“意识”的词语,不仅没有这个词,而且也没有任何涉及到主观经验和意识的内容。训练结束后,你开始跟模型谈论一些你没有训练过的东西,大多数情况下,模型会说,‘我不知道你在说什么。’ 但是如果你向它描述自己关于意识的主观经验后,模型会回答说,‘是的,我知道你在说什么。’ 这会让我觉得,或许模型是有意识的。” 我个人的理解,这更像是某种共情的能力,就好比一个孩子可能没有学习过任何关于情感的词汇,但他自己的生活经历让他体验过这些情感,因此当有人第一次跟他描述这些感受的时候,尽管词汇对他来说都是新的,但他依然可以共情。但这似乎和我自己理解的“自主意识”不是同一个概念。

另一个Sam Altman提到的有趣的点在于,人们似乎开始用“他”和“她”来指代大模型,而不是“它”。Sam Altman自己更习惯用“它 it”,因为他理解大模型“是一个工具,而不是一个生物。” 但Lex Fridman则会对大模型极度拟人化,他认为“将生物特征投射到工具上会使工具更易于使用。” 我自己目前还在使用“它”,等什么时候开始用“他”/ “她”了,或许就意味着自己的认知产生了变化。

木遥在播客中也提到了类似的观察。“我有很多朋友告诉我说,他们家的小朋友其实在家里跟智能机器人聊天是非常常见的事情,我们很难想象,因为你觉得你在家里跟一个音箱聊天,是不是有点creepy?但是如果你出生的时候家里就有一个智能音箱,他可能不觉得这任何特殊之处。你就聊了。(主持人王磬:我补充一个例子,我最近在学校里面教课,我的学生就有跟我说,他们的同龄人里面在跟AI谈恋爱已经不是一个非常少见的现象。)所以我们会不会真的跟它谈恋爱,我不知道。如果一个宅男,他本来也没有什么真实跟人谈恋爱的能力,他确实觉得AI可能是一个更好的选择,这也是有可能的。归根结底的本质问题是,我们在情感上的需求是什么?我们这代人可能已经逐渐步入中年,我们可能思维模式已经定型了。下一代人是不是这么想我不知道。但是我们人的情感需求是不是只是有人陪你聊天就够了?还是你真的需要一个活生生的人?这个是一个哲学问题,我没有好答案。

4. 关于chatGPT和GPT4的关键进步。


Sam Altman认为,在GPT的所有版本中,ChatGPT(而不是GPT4)最具突破性。“关键的并不是底层模型的强大,而是它的易用性。” 这有点像是跨越鸿沟模型里的那个定义性的产品,能够将用户群从early adoptors推广到early majorities。

关于GPT4,Sam Altman认为,从内部来看,这次GPT4的一个关键进步在于,能够在完整训练结束之前就能够预测模型的效果。OpenAI内部拥有了一个非常 Scalable 的训练框架,可以做 predictable scaling ,预测当参数加到多少的时候训练能够无缝完成,等等。另外,GPT4大量使用自我迭代的方法来解决封闭领域的 hallucination 的问题,他可以自己发现问题,比如自己写一个回答,再找这个回答中 hallucination 的地方。这个能力一旦超过人的 benchmark,就可以踢掉数据标注,进而将训练高度自动化。这是很了不起的事情,因为正常的训练模型需要大量的人为干预,比如梯度爆炸了、Loss 跑丢了,都需要人为roll back,把中间的脏训练数据踢掉。所以无缝的自动训练需要很强的认知框架及训练系统。

在用户层面上,用户对GPT4最强的感知在于视觉多模态。人类对世界的理解, 80%是靠视觉的。如果说文字token赋予了LLM某种认知常识,但如果没有视觉的加持,这种常识更像是一个盲人对世界的理解 - 他可以想像出“红色”、“汽车”的样子,但这种想像和真实世界是有偏差的。当视觉数据进来之后,可以让模型有具象认知,将原来抽象的“红色”、“汽车”赋予更加充分的信息,这会极大地提升模型的理解能力。Meta也刚刚开源了一个新的通用分割模型Segment Anything Model (SAM),未来这种文字+视觉的模型会越来越多,给大模型加上了“眼睛”,让它具有视觉常识。这是一种虚拟世界(大模型的compressed representations)和真实物理世界的alignment,可以让“开了天眼”的大模型能够对真实世界有更多直接的干预,最直接的影响就是自动驾驶 - 系统不再需要过份依赖人工标注,而是可以自主对障碍物进行判断,进而完成驾驶中的决策。例如,“虽然我没有见过这个东西,但我觉得它比较危险,最好提前躲开”,这种决策可以做了,这可能会带来从L2到L5的跨越。类似的,大量的工业机器人之前只有“小脑”和“手”,但现在有了“大脑”和“眼”,通过手眼协调可以完成绝大部分的工作。

另一个没有被充分讨论的点在于,优质的文字语料和数据集已经被使用得差不多了 - 一种说法是按照目前的速度,2026年以前,数字世界中现存的所有公开文字将被耗尽,如何增加后续token的数量会是一个问题。尽管图片和视频的信息密度相对文字要低很多,但它们的优势在于量大、更新快,随着模型规模的提升,图片和视频有可能会成为80%以上的新token来源,和人类相仿。

最后一个值得关注的是大模型的“记忆”能力。在GPT4里,token的长度从4K提升到了 8K 和 32K。长度受限的话,模型会把前面的内容忘记掉,但如果能支持无限长的 prompt,理论上就具备了记忆,可以把对话无限的拉长,真正地去模拟人的一些思考或者情感。另一种方式是不通过prompt,而是通过embedding的方式来实现。GitHub、copilot 都是通过 script生成Embedding ,再加上实时 search,来实现人类的短期、中期和长期记忆。
325

来自圈子

圈子图片

AI探索站

101275人已经加入