Stable Diffusion 3 来了,文生图第一梯队不再孤单。
前两天认真学习了 SORA 技术报告,之后内心一直感觉非常不踏实,因为我觉得 SORA 的核心护城河根本不是各种流言说的 patch,可变尺寸视频,diffusion transformer 这些点(当然这些也很重要)。而是数据。
核心护城河是数据,而且这个差距不是 SORA 发布才暴露的,早在 DALL-E 3时,openAI 就把其它玩家远远甩在身后,并且没看到任何一个开源方案有追赶上的趋势。
为什么?因为当其它家还在使用 LAION 里的互联网标签-图片对进行训练时,DALL-E 3拥有详细精确描述文字的图文对作为训练数据。这背后说明 openAI:
- 几乎储备爬完了互联网的高清美图
- 通过迭代数据和模型,有AI时代的数据打分、数据打标、数据增强工具
- 很可能组合强化学习,制作了能“无中生有”高质量训练数据的工具
开源界很难做这种全局的深度集成,毕竟开源研究里,通常自己爬数据都不现实,都等着哪里有LAION 这样的数据集可以下载。更不用说配套的 AI 时代的数据基础设施。连追赶 DALL-E 3 的竞品都不存在,又有什么道理去复现 SORA 呢。
我本来比较悲观的以为,要等到 openAI 的人跳槽几个,做点技术扩散,才有可能出现和 DALL-E 角力的产品出现。
开源没有第一梯队的模型,那 OneDiff 又能为全世界做出多大的贡献呢?所以很沮丧。
看到 SD 3 的提示词后,我知道,我很可能错了,而且非常开心,热烈期待 SD 3!