即刻App年轻人的同好社区
下载
App内打开
Diiiii
8月前
早上 OpenAI 发布了 Sora,然后一大堆新闻稿都忙着喊“炸裂”,“现实不存在了”,“行业被颠覆了”,但我个人看了之后觉得没有那么夸张。

首先还是得承认效果确实出奇得好,整个视频在清晰度、复杂度、多角色、复杂运动等方面相比之前有了质的飞跃。

然而本质上,目前的所谓的视频生成,其实都是只“单一情节单一镜头”的生成,是“一镜到底”。当然,这里说的“单镜头”并不是“单机位”,比如那个女人在街上走的视频,还有剪纸狼的视频,都有多个机位,但本质上都还是一个情节。尽管这个情节的画质和真实性提升了,但依旧不足以支持复杂的叙事。

还是那个女人在街上走的视频,如果我想创作这样一个最简单的小故事:一个女人漫步在街头,突然一辆车停在旁边,下来一个杀手朝女人开了两枪,然后上车跑了。女人倒在血泊中。感觉这个故事靠目前的视频生成技术是较难实现的。这里的关键是逻辑(包括人物和画面)在多个视频和情节间的连贯性能否保持,如果可以,那么创作多个视频拼起来就行。但感觉目前应该比较困难。换句话说,模型应该还没有能力去理解画面之间这种复杂的逻辑对齐关系。但如果这个实现不了,所谓的“视频生成”本质上依旧只是“连续相似图片生成”或“GIF生成”,只不过这次换成了高清 GIF 而已。这就好比用 Midjourney 能够做出非常华丽的单张图片,但很难做出质量很高的绘本或漫画。

关于视频生成的现有应用场景,建议听一下这期硅谷 101 的播客,《三体》的视觉导演陆贝珂比较清晰地说明了视频生成能做什么,不能做什么。另外,影视飓风的这一期也值得一看,都是从实际落地的角度来说明视频生成的使用价值的。看完之后会发现,目前视频生成的效率很高,但可控性不足,更多的场景还是在前期的概念设计 concept design、分镜设计等环节,而不是实际的内容生产环节。

但无论如何,前途是光明的。非常期待接下来视频生成(尤其是long-term context 以及情节转换理解方面)进一步的发展。

PS:另一个比较值得关注的是 OpenAI 的训练方法,如果真的使用了合成数据,那么还是一个很大的突破

相关链接:

《硅谷 101:对话《三体》视觉导演陆贝珂:GenAI改变的影视特效业》:www.xiaoyuzhoufm.com

《不会画画也能出分镜?我们给自己做了个画分镜的AI》:www.bilibili.com

E139|对话《三体》视觉导演陆贝珂:GenAI改变的影视特效业

硅谷101

525

来自圈子

圈子图片

AI探索站

76346人已经加入