当AI生成3D遇上具身智能:
一个即将爆发的交汇点
最近在研究做AI、3D和具身智能结合的新东西,看过了市面上大部分AI生成3D相关的技术路线和应用,有了一些有趣的思考。
现在AI生3D的主流路径基本是从文生图/图生图再到3D生成:
- 文生图/图生图:先用闭源应用midjourney,或利用comfyui接flux、stable diffusion等开源模型;
- 文生3d/图生3d:再利用tripo3d、meshy、腾讯混元3d(混元也有开源模型)等闭源应用,或trellis等开源模型,进行图生3d建模(比直接文生3d的控制性更好一些);
- 其他:hyper3d(rodin)特殊些,支持直接3d生3d
但我看到一个小红书博主分享的工作流特别有意思:是针对甲方已经有一张图,要基于这张图做出3d模型的业务场景,博主先用可灵AI图生视频,再手动截取三视图,之后用三视图再生成3d模型。
他特意强调没有选择用这张图直接图生3d,而是中间加了一步三视图,这样得到的3d模型效果更好。(另外,其实如果没有初始的那张图,也可以直接文生三视图,只是这样生成的三视图往往物体一致性也不能保证,三视图的角度也不够精准。)
这位博主的思路给了我一个重要启发。为什么这个路径效果更好?核心原因可能在于视频生成在物体一致性上的优势。
这让我联想到:未来最有希望做好文生3D/图生3D的,会不会是掌握海量视频数据的快手、字节,或者google (youtube)这样的公司?
更进一步思考,随着高斯溅射(Gaussian Splatting)这样的连续3D表示方法出现,从视频直接生成3D表示变得更加可行。我认为未来的技术架构很可能是在生成高质量视频的同时,直接输出3D表示。这种联合学习的方式不仅更高效,而且能够自然地保证视频和3D表示的一致性。
再进一步,这个方向还能搭上两个顺风车:一是视频生成领域在物体一致性上的突破,二是具身智能世界模型的发展带来的物理世界约束。
我最近觉得非常激动的一个点是,我们其实很快会迎来一个多方成熟的交汇点:AI生成视频 + 具身智能 + 世界模型 + 3d打印。
之后会发生什么呢?
AI可以生成完整的3d场景,在3d场景中可以生成出新的3d模型,并且这些3d模型和场景彼此遵循真实的物理规律进行交互。更要命的是,这些生成的模型都是可以被以很低的成本3d打印出来的。
写到这里,我不禁深情地把玩起桌上的labubu和skullpanda lol
朋友们,just imagine that.
AI generated 3D is more than AI and more than 3D.