即刻App年轻人的同好社区
下载
App内打开
潦草学者
11月前
我有一个暴论:语言的上限,决定了大模型的上限。

现在这一波生成式 AI 的技术,实际上都太依赖 Transformer 了,太依赖语言了。

因为大模型依赖人类的训练,而人类只能通过语言来描述一个东西,所以现在的大语言模型都高度依赖人类的语言。

比如视频生成。

了解了现在视频生成模型的技术原理。有种感觉,按照现在的框架,比如 DiT,不太可能实现通用的视频生成模型。

因为,视频是很难用语言描述的东西。

可以做一个思想实验:你蒙住眼睛,让另外一个人通过语言来和你描述一个一分钟的视频,让你在大脑中想象他的画面。无论于语言描述得多么完善,你想象的视频必然和原始视频有非常大的偏差。

所以,我有一个暴论:语言的上限,决定了大模型的上限。

按照现在的框架来看,通用的视频生成模型更难出现,视频生成模型只能在在特定的场景中稳定使用。例如基于一些画面信息,进行一些稳定的简单的镜头移动,生成时间短的视频还是可以的。但是通用的长的模型生成不可行。

当然,希望技术的突破可以打我的脸。
129

来自圈子

圈子图片

AI探索站

101456人已经加入