即刻App年轻人的同好社区

下载

Diiiii

2年前

早上 OpenAI 发布了 Sora，然后一大堆新闻稿都忙着喊“炸裂”，“现实不存在了”，“行业被颠覆了”，但我个人看了之后觉得没有那么夸张。

首先还是得承认效果确实出奇得好，整个视频在清晰度、复杂度、多角色、复杂运动等方面相比之前有了质的飞跃。

然而本质上，目前的所谓的视频生成，其实都是只“单一情节单一镜头”的生成，是“一镜到底”。当然，这里说的“单镜头”并不是“单机位”，比如那个女人在街上走的视频，还有剪纸狼的视频，都有多个机位，但本质上都还是一个情节。尽管这个情节的画质和真实性提升了，但依旧不足以支持复杂的叙事。

还是那个女人在街上走的视频，如果我想创作这样一个最简单的小故事：一个女人漫步在街头，突然一辆车停在旁边，下来一个杀手朝女人开了两枪，然后上车跑了。女人倒在血泊中。感觉这个故事靠目前的视频生成技术是较难实现的。这里的关键是逻辑（包括人物和画面）在多个视频和情节间的连贯性能否保持，如果可以，那么创作多个视频拼起来就行。但感觉目前应该比较困难。换句话说，模型应该还没有能力去理解画面之间这种复杂的逻辑对齐关系。但如果这个实现不了，所谓的“视频生成”本质上依旧只是“连续相似图片生成”或“GIF生成”，只不过这次换成了高清 GIF 而已。这就好比用 Midjourney 能够做出非常华丽的单张图片，但很难做出质量很高的绘本或漫画。

关于视频生成的现有应用场景，建议听一下这期硅谷 101 的播客，《三体》的视觉导演陆贝珂比较清晰地说明了视频生成能做什么，不能做什么。另外，影视飓风的这一期也值得一看，都是从实际落地的角度来说明视频生成的使用价值的。看完之后会发现，目前视频生成的效率很高，但可控性不足，更多的场景还是在前期的概念设计 concept design、分镜设计等环节，而不是实际的内容生产环节。

但无论如何，前途是光明的。非常期待接下来视频生成（尤其是long-term context 以及情节转换理解方面）进一步的发展。

PS：另一个比较值得关注的是 OpenAI 的训练方法，如果真的使用了合成数据，那么还是一个很大的突破

相关链接：

《硅谷 101：对话《三体》视觉导演陆贝珂：GenAI改变的影视特效业》：www.xiaoyuzhoufm.com

《不会画画也能出分镜？我们给自己做了个画分镜的AI》：www.bilibili.com

E139｜对话《三体》视觉导演陆贝珂：GenAI改变的影视特效业

硅谷101

43 525

来自圈子

AI探索站

114201人已经加入