这个是我们最近做的一个尝试,目标导向「影视飓风」这样的长视频结构,是否可以能端到端的全部用AI来完成
这是一个很好的demo,其实还有很多地方要改进;昨天白天发出来后,看到视频已经自己有了接近30个转发,于是朋友圈再来宣传一下
我们实现了,并且发现了:一套非常有结构美感的「言之有物」的长视频「内容工程管线」,这其中我们至少解决几个这样的问题:
1)分镜是最小单位:如何保证每个分镜可以有单独的上下文去生成,让分镜从整个长内容下,解构/解耦合出来,一个分镜一个分镜生成,模型才可以发挥其全部威力;即使视频模型进化的越来越厉害,长视频依然需要以分镜为最小单位去构建(如同人类社会那样)
2)分镜的连续性如何保证:如果只是单纯的从脚本到具体每个分镜,分镜很容易不连续,即每个分镜看单独看很有逻辑,但是连到一起后,则会显得逻辑并不连贯;这里我们有了一个新的概念,叫做「边界上下文约束」,所有分镜共享同一套基础上下文,同时每个分镜也有自己独立的特定上下文,从而保证了连续性(这里还有很多上下文工程的细节)
3)分镜的画面质感如何保持一致性,同时保证工程化上的确定性;这里我们又引入了「分镜模板」的概念;这个概念是我们此前从AI图文矩阵的工作流中获得概念推广得来的,因为要保证内容效果,内容形式其实是最难迭代的,但是人类看长视频本质看的还是形式背后的信息量和信息节奏;因此我们跑同了一系列稳定的模板,后续所有的核心都是文字/JSON本身的生产,这样整个工作就很好控制了,画面的质感也可以把控审美
后续我们会考虑把整套长视频的上下文工程原理开源出来(这还需要很多时间去梳理),相比于这个工作流本身,更另我们感到激动的是,背后的上下文工程的一些很有趣的范式,我们希望系统的提出对应的概念。(且这些概念不单纯可以用到内容上)
在这之前,其实还有很多细节要去做优化的。这个视频的质感和效果其实离「影视飓风」还有很大的一些距离,但是做了这一轮之后,我们也很清晰的知道改进点在哪里,这个感觉就很快乐(比如引入人像A轨的分镜模板,比如做脚本本身做工作流改良)
这篇内容我们自己打分在70分,单纯从内容上来说还有很多需要去优化的;但是从工程化的视角来说,我们找到了无限优化迭代到100分的轨道和框架
为什么我们要做这样的尝试:
1)希望探索AI的内容能力边界,我今年希望可以做一个内容品牌,来探索生产力的边界和背后的上下文工程范式
2)我们从23年就开始做AI图文矩阵,这个过程中遇到了很多的质疑,核心质疑点在内容质量和背后的可持续性,很多人以前对AI矩阵内容的理解是垃圾内容堆量;但是我们有不一样的理解,我们相信工业化的优质内容生产管线才是矩阵的未来,这个是我们的一个实验和探索
👆Build In Public,差不多是这些,感谢大家观看
最后还要credit to我们的博涵老师~ 这个工作Idea锚定点 最初来自我,工程架构化+关键范式 来自我和他的共创,实际的0-1落地和操作全部来自博涵好!
如果有长视频批量生产需求的欢迎联系交流