大语言模型，其实和语言没啥关系 Andrej Karpat

即刻App年轻人的同好社区

下载

喝鹅何说说

2月前

大语言模型，其实和语言没啥关系

Andrej Karpathy 9.15发的x推文批评了大语言模型 (Large Language Model) 这个命名对大众的误导性，他说大语言模型跟“语言”其实没啥关系。

包括马斯克也在评论区留言表示，多模态大语言模型 (Multimodal LLM) 这个名字也挺扯的，毕竟“多模态”直接和“语言”就矛盾了。

在我理解，他也不是想强调图像、视频、音频等多种媒介模态的事情。

他想强调的是，利用LLM的原理，去解决一切可以用token流抽象化建模的问题，而不必局限在“语言”相关的问题上 - 比如写作等。

要跳脱出来，抽象看待predict next token的token本身，其实可以是任何能够被token化的媒介形式。那么如果有任何一个问题，可以被抽象成token流的建模，那么就可以利用LLM来解决。

也就是说，打开思路，利用LLM就能解决人们过去没想过它可以用来解决的问题。比如使用LLM预测新的、可能有效的分子结构，以用于设计新的抗生素或靶向药物。

原帖解释得很清晰了，翻译如下：

“LLMs（大语言模型）这个名字其实有点令人困惑和遗憾，因为它们与语言关系并不大。这个名称只是历史遗留问题。实际上，它们是用于对token流进行统计建模的高度通用技术。更贴切的名称可能是"Autoregressive (自回归) Transformer"之类的。

这些模型并不在乎token是否恰好代表文本片段。它同样可以处理图像块、音频片段、动作选择、分子结构等。只要你能将问题简化为对token流的建模（对任一组离散token的词汇表），你就可以"用LLM来解决它"。

事实上，随着LLM技术栈变得越来越成熟，我们可能会看到大量问题收敛到这种建模范式中。也就是说，问题被固定为使用LLM进行"next token prediction"，只是token的用途和含义随领域而变。

如果情况真是这样，那么深度学习框架（如PyTorch等）可能对大多数问题来说过于通用了。如果80%的问题只想使用LLM，那么为什么还需要成千上万可以任意重新配置的ops和layers呢？

我不认为这完全正确，但我觉得这个观点有一半是对的。”

14 45

来自圈子

AI探索站

78030人已经加入