即刻App年轻人的同好社区
下载
App内打开
歸藏
8月前
Jim Fan 详细介绍了一下 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。

如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具,那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎,能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解,而这一切都是通过先进的去噪技术和梯度计算实现的。

我甚至猜测,Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能!

下面我们来详细分析一段视频。这段视频的提示是:“一杯咖啡里,两艘海盗船相互战斗的逼真特写视频。”

•视频中,模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。
•这些3D模型的海盗船在航行中能够自然地动起来,它们在避开对方的同时,动作流畅协调。
•还有咖啡的流体动力学表现,包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支,通常需要复杂的算法和方程式来实现。
•视频的光影效果逼真,几乎可以媲美光线追踪技术的渲染效果。
•模拟器还考虑到了杯子与海洋相比较小的尺寸,并运用了移轴摄影技术(Tilt-shift photography),为整个场景增添了一种微观世界的感觉。
•虽然视频中的场景在现实世界里找不到对应,但模拟器还是根据我们的期望,准确实现了物理规则。

接下来的步骤是:引入更多的模态和条件变量,我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。
00:15
26114

来自圈子

圈子图片

AI探索站

76346人已经加入