语言是思想的边界，话一旦说出口，信息就开始塌缩。
未来是脑机接口的世界。

有些东西是可以独立于人类语言客观存在的，比如数学或写代码，我觉得不排除有一套好的强化学习策略，通过线性外推并超越人类科学家。

在电影🎞️ 诞生之前，我们是如何描述视频的呢？

如果你说的是任意两个人用语言描述的视频完全一样，那确实不行。但是，就像小说中的人物和场景描写能让你感觉身临其境一样，语言对个人来说还是足够描述视频的。

1000个读者心里有1000个哈姆雷特

我有一个暴论：语言的上限，决定了大模型的上限。

现在这一波生成式 AI 的技术，实际上都太依赖 Transformer 了，太依赖语言了。

因为大模型依赖人类的训练，而人类只能通过语言来描述一个东西，所以现在的大语言模型都高度依赖人类的语言。

比如视频生成。

了解了现在视频生成模型的技术原理。有种感觉，按照现在的框架，比如 DiT，不太可能实现通用的视频生成模型。

因为，视频是很难用语言描述的东西。

可以做一个思想实验：你蒙住眼睛，让另外一个人通过语言来和你描述一个一分钟的视频，让你在大脑中想象他的画面。无论于语言描述得多么完善，你想象的视频必然和原始视频有非常大的偏差。

所以，我有一个暴论：语言的上限，决定了大模型的上限。

按照现在的框架来看，通用的视频生成模型更难出现，视频生成模型只能在在特定的场景中稳定使用。例如基于一些画面信息，进行一些稳定的简单的镜头移动，生成时间短的视频还是可以的。但是通用的长的模型生成不可行。

当然，希望技术的突破可以打我的脸。

AI 探索者 创作者 产品经理  公众号：潦草学者  Newsle..：草稿拾遗   🖋/📖/📷☕️/🍻/🤘🏻/🏓  关注人工智能&个人管理&互联网商业

来自圈子

AI探索站