即刻App年轻人的同好社区
下载
App内打开
SUKIII
9月前
GPT-4o 的生图能力到底是怎么实现的,它和传统扩散模型有何本质区别?

这两天4o炸了,我也玩得不亦乐乎…尤其其指令遵从性好得令人发指,把传统的扩散模型那些难搞的问题都一并解决了。

与SD等扩散模型不同,GPT-4o 用的是一种非常规的方式:自回归图像生成(Autoregressive Image Generation)。

1. 从扩散模型到自回归建模:路线之争

目前主流的图像生成模型(比如 DALL·E 2、Stable Diffusion、Midjourney)大多采用扩散模型(Diffusion Models),本质上是通过在图像空间添加噪声,然后学习如何从噪声中“还原”图像——这是一种概率反演过程。

但扩散模型存在几个痛点:
推理慢:图像生成需要成百上千步反向去噪;
图文对齐弱:文本控制图像时容易出现“牛头不对马嘴”;
多轮修改难:每次生成都是新起点,缺乏上下文追踪能力。

GPT-4o选择了另一条路线:自回归生成图像。它不是在图像空间“修复”,而是在图像编码空间逐像素/patch地生成图像,就像语言模型逐词生成句子一样。

核心逻辑:
将图像离散化(tokenize):把图片切割为一系列小块(patches)或向量,映射为“图像token”;
每次预测一个或多个图像token;
模型按“先前 token 预测后续 token”的方式递推,逐步拼出整张图像。

这其实就是把图像建模问题“语言化”了,从语言模型的自回归策略中借力。

2. 图像Token化的关键:VQ-VAE or DALL·E Tokenizer?

把图像变成“token”到底是怎么做的?这背后通常使用的是离散化编码器(discrete image tokenizer),目前主流有两种方案:
VQ-VAE(Vector Quantized Variational Autoencoder):通过一个离散编码器将图像映射到固定词表的token索引;
DALL·E tokenizer:将图像压缩为32×32个图块,每个图块对应一个token,从一个图像词典中采样。

GPT-4o 很可能使用了类似 DALL·E 3 的图像tokenizer,但结合了更紧密的语言-图像对齐机制,使得文字控制图像内容的效果远好于旧架构。

3. 多模态共训:图、文、对话三模态统一语义空间

GPT-4o 的“生图”不是单纯的文本到图像生成,而是多模态统一建模的结果。

它不只是一个 image-to-text、text-to-image 的桥梁,而是通过统一的 Transformer 架构,将语言、视觉、音频等 modality 投射到同一个语义空间(shared embedding space)中,进行联合建模。

这带来了两个技术突破:
更高效的图文对齐:模型通过joint training,在训练中学习如何从语言语境中预测图像token;
上下文一致的图像修改:自回归架构天然支持“基于已有上下文继续生成”,用户可以连续对图像进行“对话式修改”,而无需重启生成。

例如,你先生成了一张沙滩图,再说“把天空换成晚霞”,GPT-4o 能在原始token基础上,重写部分区域token,实现局部可控重生成。

4. 技术挑战与突破

使用自回归方法生成图像并非新鲜事,早期如 ImageGPT、CogView 都做过尝试,但有如下瓶颈:
token数量过大:一张512x512的图像token可能达数千个,推理成本高;
长程依赖建模困难:远处图像块之间的关系难以捕捉;
图像质量劣于扩散模型:早期模型生成结果容易模糊或结构错乱。

GPT-4o 在这方面疑似采用了:
高效token压缩机制(如更稀疏的token grid或patch-level tokenization);
多尺度建模 + 段落式生成策略(类似语言的段落组织图像结构);
Attention优化(如sparse attention、局部注意力)来压缩计算复杂度;
增强型对齐loss函数(如CLIP-style similarity loss + reconstruction loss)以强化图文一致性。

5. 展望:统一生成范式的关键拼图?

GPT-4o 的图像生成能力标志着一种新趋势:自回归 + 多模态统一建模,正在挑战扩散模型一统江湖的格局。

优点在于:
与语言模型深度集成;
可控性强,支持多轮图像“对话”;
统一模型支持多模态输入输出,便于部署和产品化。

缺点也很明显:
高分辨率图像仍存在token爆炸问题;
极端细节和艺术感仍可能逊于Stable Diffusion类扩散模型。

但长远看,随着视觉token效率提升、跨模态建模优化,自回归生成有望成为“通用生成模型”的核心骨架。
(图它画的,内容它写的🙂‍↔️,人只需要会提问就好了)
1334

来自圈子

圈子图片

AI探索站

101253人已经加入