我有一个暴论:语言的上限,决定了大模型的上限。
现在这一波生成式 AI 的技术,实际上都太依赖 Transformer 了,太依赖语言了。
因为大模型依赖人类的训练,而人类只能通过语言来描述一个东西,所以现在的大语言模型都高度依赖人类的语言。
比如视频生成。
了解了现在视频生成模型的技术原理。有种感觉,按照现在的框架,比如 DiT,不太可能实现通用的视频生成模型。
因为,视频是很难用语言描述的东西。
可以做一个思想实验:你蒙住眼睛,让另外一个人通过语言来和你描述一个一分钟的视频,让你在大脑中想象他的画面。无论于语言描述得多么完善,你想象的视频必然和原始视频有非常大的偏差。
所以,我有一个暴论:语言的上限,决定了大模型的上限。
按照现在的框架来看,通用的视频生成模型更难出现,视频生成模型只能在在特定的场景中稳定使用。例如基于一些画面信息,进行一些稳定的简单的镜头移动,生成时间短的视频还是可以的。但是通用的长的模型生成不可行。
当然,希望技术的突破可以打我的脸。