关于语言模型与世界模型的非技术思考。
我们是用语言描述这个世界的,如果人类历史上所有留下过和正在产生的语言,完整的构成了对这个世界的精确描述,那么沿着大语言模型的路子,就可以到达AGI。
如果并不是,那恐怕沿着大语言模型的路子,到达不了我们心中最高的那种AGI。
世界模型,意图把我们能看到的所有视觉,当成对这个世界的完整而精确的描述,和语言相比,视觉数据更像是raw data,语言更像是compressed data, raw data本来更多,但是已经数字化结构化的少,compressed data本来没那么多,但数字化结构化的好。
对于语言,我们就拿一段文字,不停地让它预测下一个token,用段落自身检验结果,就完成了预训练。 但用视频,还走预测下一个词的模式就行不太通, 语言段落中,一个词与下一个词的关系信息量,总是可控的。
对于视频,一帧与下一帧的关系,信息量难以描述的大。更别提人类产生的视频,除了真实拍摄生活的,还有虚构的电影,所以并不是所有的素材都能体现物理世界的真实规律。但几乎所有的语料素材,都真实的反应了语言的真实规律。