关于大模型的迷思(1)
很多人对大模型有误解,觉得虽然所谓“语言”大模型没有OpenAI厉害,但我们有矿山大模型啊,天气预测大模型啊(举个例子,切勿对号入座)。“我们不做诗,我们干实事。”
声明:To B的工业AI工具必然是很有价值,也需要发展的,这里想说明的是,二者是不同的东西,就像《星球大战》里面的C3PO和交通机器人,直接比较对双方都不公平。
这种片面狭隘乃至错误的理解,命名要负很大的责任。大语言模型,大不是关键,语言也不是关键。真正的目标,是通过大语言模型达到通用人工智能,通用,才是关键。
为什么是语言模型?正如维特根斯坦所说,语言的边界就是思维的边界。语言是真实世界在文本上的一种投影,仅仅通过学习文字,也能建立起对真实世界的“有损”认知,就像通过三视图还原物体一样。这也引出了第二点,
为什么要大?因为只有给足了数据,才能让模型建立起对真实世界比较有效的认知。早期的自然语言处理算法没有办法区分诸如“中国队大胜美国队” vs. “中国队大败美国队”这种句子。根本原因在于,我们的自然语言系统也不是完美的,光靠单词,语法,和句法的组合,没有办法完美地描述各种场景。我们之所以能理解这两句话,是因为我们还知道很多背景知识和关于使用场景的信息。所以,光靠基于逻辑变换的算法,是有很大的局限性的。机器不行,我们也不行。换句话说,你得让模型接触足够多的例子,这就是为什么模型一定要大。
GPT是语言模型,但是它的训练数据中,大概率也是包含了矿山,天气,等很专业或者小众的知识的。(甚至核武器图纸这种,这也是人工智能安全很大的一类风险因素)
再说说为什么一定得是语言模型,而不是视觉模型,图片也是世界的投影呀?因为语言是我们人类几乎唯一比较准确有效的信息传递方式,我们不是三体人可以在思维层面沟通,也没有神圣的卡拉将我们的意志相连。手语本质上也是一种将文本可视化的表达方式。所以就算超级人工智能摆在你面前,语言也大概率是你跟它唯一可行的沟通方式(如果马斯克的脑机接口实验成功,那么可能会有更直接的沟通方式)。所以,教会机器“说话”,是至关重要的一步!(你看,我也是通过文字在这里试图跟你传递我大脑中的信息)
至于什么“1+2会算错”,这根本不是问题,因为一旦你可以教会机器说话,你就能教它使用工具,遇到1+2,它就知道调用计算器。我们从小也是这么被教的。如果你不信,你尝试算一下354 x 789,你也得用计算器。打草稿,就相当于chain of thoughts(CoT),把步骤写下来,节省推理的时候用到的大脑的计算资源。所以你看,这和人脑的工作模式是非常相似的。
沿着这个思路,当模型的智能达到一定程度,又学会了语言,你就能引导它开始自我学习自我迭代了(目前还没有证据表明模型有自主意识,这可能是人类唯一的优势了吧),引导它去解决矿山安全问题,天气预测问题,常温超导问题,可控核聚变问题。
总结一下,大语言模型,large language model,llm,是通向“通用”人工智能的一种尝试,目前展现出了很大的潜力,最终能不能达到真正的artificial general intelligence,AGI,还有待观察。有些专家,比如Meta的图灵奖得主Yann LeCun可能不同意此技术路线通向AGI的最终可能性(他也不觉得AGI有什么风险就是了),但不要再说什么我们语言大模型差一点,但我们有矿山大模型。光喂矿山数据能教会模型说话吗?
以后有机会的话可能还打算聊聊next-word-prediction的合理性,大模型和通用人工智能的宗教哲学思想根源,我对多模态的不成熟的看法,基于历史数据的模型能不能产生新知识,人脑作为一种大模型,AGI的到来,等等。
声明:此文纯手打,没有使用任何AI工具!
#OpenAI人事变动