Runway的3D运镜 camera control,让视频生成的可控性再提升一个台阶。反映出视频生成大模型作为想象力的虚拟摄像机,已经在物理逻辑上接近真实拍摄的运镜逻辑。
此次更新分为两块,一方面是交互层面优化,从原来死板的多个维度的参数设置,变成更符合直觉的鼠标拖拽来控制运镜角度,另一方面是底层模型能力进步,之前基于老一代unet架构,运动幅度有限,且容易崩坏,做出来的效果就是动态PPT,实际用处不大,但是现在基于DiT架构,全方面的提升,真的可用了。
运镜的可控性一直是视频生成的痛点,早在4月份LTX studio就有非常惊艳的解决方案,把一张图转为3D空间,然后选择起始点和结束点,进行运镜生成,猜测是通过高斯泼溅的方式实现,交互非常有创意且符合直觉,但是模型能力不行,实际效果很拉胯。
这也是目前AI产品在找PMF的典型错误,产品在交互层跑在模型太前面,实际交付的方案看似像那么回事,但实际上手是没法用的,我过去一年多也犯了几次这样的错误。
关于3D,是一个公认的重要方向,但难度也很大,不同赛道的模型能力都在试图解决这个问题。我也不是做这块的,所以以下是非专业的信息陈列:
Midjourney 9月份的officehour透露,他们正在开发一个 3D 系统,让你能进入 Midjourney 图像。不是多边形polygons,,不是 NeRF,也不是高斯。而是一种新的类似 NeRF 的格式。可能未来图像生成和视频生成的边界会打破,都是单镜头素材生成。
Wonder dynamics也支持将实时视频画面转化为 3D 场景,包含所有摄像机设置、角色身体和面部动画,以及完全可编辑的元素
Tripo等一系列产品,甚至luma的前身,都在做文生3D数字资产,不过还没做得很成熟,因为对应的3D数据集不够。
李飞飞提出的具身智能,要实现AGI,必须要理解真实世界的环境,Sora最开始讲的故事,也是世界模拟器,虽然实际上DiT架构并没有真正解决物理逻辑错误的问题。
3D是必须啃下的骨头,就看各种技术路线和应用方案,谁先跑出来。