即刻App年轻人的同好社区
下载
App内打开
陈南
8月前
LLM原生图片输出能力的影响仍远远被低估

如果我们将LLM能力迭代的过程看作是“如何将机器打造成类似于人的智慧体的过程”,在原生图片输出能力的加持下,LLM已经具备了充分用视觉理解这个世界并用图片表达其认知的能力,这将会对几乎所有与视觉相关的行业造成影响。如果用一句话来描述native image output能力的本质,我会说: 感官能力正在迅速与人对齐。

这个观点可能会有点让人困惑,有朋友会问,之前的AI模型(Stable Diffusion、Flux)不是已经可以生成图片了吗?其实很不一样,之前的生图模型更多是基于扩散技术,而GPT-4o是多模态融合后的自回归技术。在GPT-4o生成图片时,它可以充分利用自身在训练过程中形成的丰富世界知识和推理能力(非Reasoning模型也有一定推理能力),这也是它在图片理解能力和图片细节的掌控度上与扩散模型拉开代差的重要原因。

在对图片内容的掌控力上,Gemini 2.0 Flash已经展现出了还不错的能力,而更大参数量的GPT-4o直接将效果上升了一个台阶。通过对比这两个模型,我们就能轻易判断出,下一代模型在这方面只会做得更好。以前很多需要使用各种软件(Photoshop、Blender等)才能做出的产出图,以后将可以由模型直出,跳过中间环节。

从出发点来讲,模型厂商迭代模型、打造AGI的过程就是逐渐复刻类人级智能的过程。

既然是打造类人级智能,那么,从经济学角度讲,当AI的智能提升时,这种低成本、听话、高智能、高效率、24小时运转的智能注定会对一部分人力市场造成挤压。

提效与替代是一体两面的概念。一个部门之前需要10个人,当5个人能完成所有工作的时候,这5个人确实是提效了,但是另外5个人就会被替代。AI的能力在一开始体现为提效,逐步会展示出替代的特征,近期最明显的将是设计相关领域(不仅是视觉设计,还包括3D模型设计等)。

那么,LLM多模态融合的下一步趋势是什么?其实也比较容易推测。以GPT-4o为例,现在既有image output能力,也有audio output能力,视频应该是很自然的,当高刷新率image输出配合audio输出时,就可以生成视频了。

推导到这一步,我们会发现,实现这一目标的最大瓶颈是GPU,相比于GPU的数量,目前最缺的其实是单个GPU的运行效率,刚刚讲的“高刷新率”需要消耗大量的GPU资源,而在当前的硬件条件下,似乎很难规模化提供给用户。幸亏,像可灵这种模型目前已经有很不错的图生视频能力,在当前硬件还不够发达的情况下,让我们也可以借助GPT-4o生成的图片来尝试一些视频创作。

大多数人还没反应过来,LLM原生图片输出能力具有非常大的潜力,它将会颠覆很多与视觉相关的领域。这两天在逛小红书的时候,经常会看到有人对GPT-4o生成的图片嗤之以鼻,挑剔里面的瑕疵,每次看到这样的场景,我就想起了2022年Midjourney V1刚出来的时候,很多人嘲笑说这么差的效果能有什么用,结果我们也看到了,仅仅过了9个月,Midjourney V4的效果就已经足够让人震惊。

正如我之前的文章(m.okjike.com)里提到的,当看到某一项技术有一些苗头时,就应该准备开始入场了,你准备好入场了吗?
01

来自圈子

圈子图片

AI探索站

100748人已经加入