碎碎念一下最近对于 AI 动画的一些思考:
1. 目前 AI 动画的主要使用方向有两个,一个是做风格化表现(eg:舞蹈视频通过卡点做 AI 动画实现风格化动效)另一个是做风格迁移后的叙事(eg:真人拍摄后通过 AI 转绘成动画)
2. 前者对于稳定性的要求,通常不如后者来得高。因为对于叙事而言,画面无理由的抖动对于观众来说,会引起不必要的注意力转移,因此通常会影响叙事。
3. 如果用 AI 来做“叙事目的”的风格迁移动画,提高稳定性的思路不是让 AI 算每一帧,而是让 AI 算关键帧。关键帧以外的部分通过其他工具来根据 AI 算的关键帧来进行迁移。这样才能既保证 AI 的想象力,又能节省算力,又能维持画面稳定。
4. 确定合适的关键帧是 key,通常我的经验是当画面引入全新的信息时就要新建一个关键帧(eg:侧面镜头时抬低头不算引入新的信息,但侧面镜头中的人物忽然扭脖子转到正面,就是引入了全新的信息)
5. 不同关键帧中的信息要细节保持一致,目前基于 diffusion 模型算不同的关键帧,算完后还是需要人手动来修。所以目前的技术方案还是会需要人来“肝”,其实“肝”的工作量就是调整关键帧之间信息的连续性。
6. 最近看到一个不错的解决方案:Rerender A Video - 这个解决方案也认为并不应该让 diffusion 模型来算每一帧,而是只算关键帧。Rerender A Video 添加价值的地方是:TA 会自动判断需要哪些关键帧,并且保证每个关键帧之间是相似的。
7. 我比较认同这个思路,他解决了“肝”的问题,但依旧是转描性质的 AI 动画。
其他类型的解决方案还有:
🔸 Gen-1:带结构改变的 AI 动画工具(目前可控性还是很弱)
🔸 Wonder Dynamics:提取动作后应用到新的模型上再合成原背景(目前异形难处理、且只适用于硬表面模型,不算头发/布料动画,背景也不会一起转)
🔸 Warpfussion:每一帧都用 diffusion 模型算,强行通过各种方式来进行稳定画面
这几种 AI 动画的解决方案都有各自的局限,可能会演化出不同场景下的使用工具。
但我还是觉得不应该要求 diffusion 模型做风格的稳定迁移,diffusion 模型有很多自己的优势比如可以做很多实验动画的探索,那种画面本身不断的生长和分解的感觉还挺迷人的。
* 视频配的是 Rerender A Video 的效果