为什么我认为GPT-4o的全模态生图能力与其它模型拉开了代差:
2024年5月GPT-4o发布的时候,它的这个“o”指的就是全模态(Omni-modal),当时我在湾区和一些算法同学交流的时候,他们就提醒我Omni-modal和传统的多模态大语言模型(Multimodal Large Language Models,MLLMs)是存在代差的。不过不知道什么原因,GPT-4o发布会上演示的惊艳的全模态能力(替盲人打出租车等),一直迟迟没有对外,反倒是Google在今年赶了上来,推出Gemini 2.0 Flash的全模态API,包括实时的视频流和语音流交互的Live API(
ai.google.dev)。
因为之前OpenAI家一直没有对外提供,所以大多数人并不能直观感受到全模态的效果有多好。国内学术界有一些研究,例如2024年9月BAAI开源了OmniGen(
arxiv.org),可以初见一些端倪。但OmniGen只有3.8B参数,效果还是受限,只能学术上研究下。
两周前开放的Google Gemini 2.0 Flash的全模态生图能力是首家达到产品化程度的。当时已经有了很多惊艳的案例,例如有位印度小哥用它的API两天时间就搭了一个迷你版的Photoshop(
picprompter.com)。还有很多案例这里不赘述了。但这次GPT-4o正式对外提供的全模态生图能力,能力又拉开了一大截。
网上已经有很多展示GPT-4o生成以假乱真图片的例子,我就不赘述了。我这里展示一个能体现GPT-4o的理解能力、构思能力和渲染能力的例子,提示词是:make a colorful page of manga describing the theory of relativity. add some humor.(中文我测了效果要差一些,可能GPT-4o中文语料的训练还是差点)
在Gemini 2.0 Flash中,直接生成的漫画惨不忍睹。文字错乱,画面也是莫名其妙。(见图Gemini ①)
如果我们先用Gemini 2.5 Pro生成生图的提示词,然后再用Gemini 2.0 Flash来生图,相当于我人工加了一个工作流,稍微好一点,但仍存在画面破碎、逻辑莫名其妙的问题。(见图Gemini ②)
用GPT-4o全模态生图能力,还是同样的提示词,一次性就能生成一页质量很高的漫画。要生成这个漫画,首先它要有对相对论的了解,还要构思出分镜来描述,然后才是把图片渲染出来。
我觉得它之所以能比Gemini 2.0 Flash的效果强这么多,应该还是和模型的参数规模、训练数据规模有很大关系。Gemini Flash的参数规模我估计可能只有30B上下,能力还是受限。之前一位朋友就吐槽过,Google反倒像是一家算力受到封锁的公司,一直在一个小参数规模的模型上折腾。GPT-4o这次展示的生图能力,从理解能力、构图能力和渲染能力上都强很多。
有人会说:这种图也没什么了不起,我调出一套工作流,基于Flux.1等模型训练一个定制的模型,再加上LLM来生成提示词,也能生成出这样的图片。但这就是AI发展的趋势:大模型的能力会越拉越强,把原来需要靠人工搭的工作流、定制的模型才能实现的场景,【内化】到模型里。比如说妙鸭相机当初搭了一套工作流+定制模型实现的能力,现在在GPT-4o生图上就是一句提示词的事儿。这就是【模型即产品】,以后用户会越来越多的只在“模型”上接受服务,对专用软件/工具的需要会越来越少。这是在今年内就会发生的事。