大语言模型,其实和语言没啥关系
Andrej Karpathy 9.15发的x推文批评了大语言模型 (Large Language Model) 这个命名对大众的误导性,他说大语言模型跟“语言”其实没啥关系。
包括马斯克也在评论区留言表示,多模态大语言模型 (Multimodal LLM) 这个名字也挺扯的,毕竟“多模态”直接和“语言”就矛盾了。
在我理解,他也不是想强调图像、视频、音频等多种媒介模态的事情。
他想强调的是,利用LLM的原理,去解决一切可以用token流抽象化建模的问题,而不必局限在“语言”相关的问题上 - 比如写作等。
要跳脱出来,抽象看待predict next token的token本身,其实可以是任何能够被token化的媒介形式。那么如果有任何一个问题,可以被抽象成token流的建模,那么就可以利用LLM来解决。
也就是说,打开思路,利用LLM就能解决人们过去没想过它可以用来解决的问题。比如使用LLM预测新的、可能有效的分子结构,以用于设计新的抗生素或靶向药物。
原帖解释得很清晰了,翻译如下:
“LLMs(大语言模型)这个名字其实有点令人困惑和遗憾,因为它们与语言关系并不大。这个名称只是历史遗留问题。实际上,它们是用于对token流进行统计建模的高度通用技术。更贴切的名称可能是"Autoregressive (自回归) Transformer"之类的。
这些模型并不在乎token是否恰好代表文本片段。它同样可以处理图像块、音频片段、动作选择、分子结构等。只要你能将问题简化为对token流的建模(对任一组离散token的词汇表),你就可以"用LLM来解决它"。
事实上,随着LLM技术栈变得越来越成熟,我们可能会看到大量问题收敛到这种建模范式中。也就是说,问题被固定为使用LLM进行"next token prediction",只是token的用途和含义随领域而变。
如果情况真是这样,那么深度学习框架(如PyTorch等)可能对大多数问题来说过于通用了。如果80%的问题只想使用LLM,那么为什么还需要成千上万可以任意重新配置的ops和layers呢?
我不认为这完全正确,但我觉得这个观点有一半是对的。”