一些关于AI影视工作流的思考与分享
目前使用AI进行全流程的AI影视制作,其工作流基本已经明确,和传统的人类影视创作流程,在大的结构上是高度一致的。
重要分为以下几个模块:
故事
剧本
分镜头(分镜头脚本+分镜头视频)
编辑(剪辑、后期)
其实这与漫画的制作流程也是高度一致的。
故事、剧本、分镜头脚本是LLM模型解决。
分镜头视频是由视频模型解决。
编辑部分由剪辑工具完成,这部分目前还依赖人类参与,因为目前我们讨论的大多是生成式AI,操作性AI还没有太多研究。
或许操作性AI也是一个蓝海,甚至是更加能帮助人类解决“体力”活。
剪辑中,还涉及语音、配乐、调色、字幕等,可以通过TTS和音乐模型解决。
说回AI影视的几个流程,目前概念上的生成AI都能办到,比如GPT可以写剧本和分镜,runway、luma、可灵可以生成视频,剪映可以完成剪辑。但是这并不意味着就可以了,这样的内容只是做到了,离做好还有非常远的距离。
这其中涉及到非常多的细节:
1. 故事如何精彩?
2. 分镜脚本如何能做到详略得当,恰到好处?
3. 故事和分镜脚本如何能保持长篇叙事下的连续性和一致性?
4. 分镜视频生成时,如何能够对分镜脚本中的描述做到最佳的还原?
5. 分镜视频生成式,如何保持主人公、配角、环境等的一致性?
6. 音乐、语音、画面如何实现完美匹配?
这是指其中问题的一部分,实操做下来,还有很多很多更加细节,但是又无法跳过的缺陷。
之前我曾经尝试通过tag tree+prompt+GPTs的方法来去解决文本和图片生成的问题,去提升质量,其实是收到了一些不错的效果的。但是如果要完成一个完整的剧作,对模型能力的依赖还是存在,且工作量务必巨大和繁杂,就没有继续做下去了。
工作流中还有一个非常重要的细节部分,就是文生视频,这个我认为是AI影视的最佳解决方案,无论是成本上,效率上,还是最终效果上,都是万中无一的最佳方案。特别是你希望对最终的视频要求越高,可控性和细节期待越多,那么就越发的能体现出图生视频的优势。
这里不想展开说,有点压箱底了。
目前各大模型都在通过做大的方式,靠模型能力的整体提升,来覆盖这里面非常多的细节问题。而目前模型的升级思路,是scaling law,是更多的数据,等他们升级完,可能也是猴年马月了,毕竟影视工作流涉及的,只是非常垂的一个方面。
所以AI影视如果没有团队专门立项往深往细了做,恐怕还有等上好久。
KL的S**reels我不看好,工作流上大体是那个意思,但是细看,是非常粗糙的,也没有看到任何解决实际用途的思路,大体上还是处于不能用的状态。再加上定位AI短剧,短剧虽小,里面对各种模型能力的整合,对创作流程的细节要求,比起影视来说一点没少,无非就是时长短了点,省略很多的工作量,相应的,算力要求也低了,用户也更容易上手。
最后,如果想把整个的AI影视工作流全流程吃下来,那么这其中涉及的各种能力一样都不能少,目前都是分散在多个顶尖的团队各自探索,你想全吃下来,对能力、资源的要求可想而知。