即刻App
年轻人的同好社区
下载
App内打开
MooreAI
74
关注
1k
被关注
0
夸夸
AI 出海独立开发者,专注于 AI 创作领域技术开发
分享海内外优质的 AI 知识和内容,喜欢就点个关注
MooreAI
10:22
OpenAI 4o + LumaAI 生成的 《Severance》的角色制作动作人偶,来源于推上的 @cfryant
00:05
2
0
1
MooreAI
2天前
4o image 自回归建模:图像token化 ,多模态共训、统一图文对话语义空间。期待未来开源,记录学习了
SUKIII: GPT-4o 的生图能力到底是怎么实现的,它和传统扩散模型有何本质区别? 这两天4o炸了,我也玩得不亦乐乎…尤其其指令遵从性好得令人发指,把传统的扩散模型那些难搞的问题都一并解决了。 与SD等扩散模型不同,GPT-4o 用的是一种非常规的方式:自回归图像生成(Autoregressive Image Generation)。 1. 从扩散模型到自回归建模:路线之争 目前主流的图像生成模型(比如 DALL·E 2、Stable Diffusion、Midjourney)大多采用扩散模型(Diffusion Models),本质上是通过在图像空间添加噪声,然后学习如何从噪声中“还原”图像——这是一种概率反演过程。 但扩散模型存在几个痛点: • 推理慢:图像生成需要成百上千步反向去噪; • 图文对齐弱:文本控制图像时容易出现“牛头不对马嘴”; • 多轮修改难:每次生成都是新起点,缺乏上下文追踪能力。 GPT-4o选择了另一条路线:自回归生成图像。它不是在图像空间“修复”,而是在图像编码空间逐像素/patch地生成图像,就像语言模型逐词生成句子一样。 核心逻辑: • 将图像离散化(tokenize):把图片切割为一系列小块(patches)或向量,映射为“图像token”; • 每次预测一个或多个图像token; • 模型按“先前 token 预测后续 token”的方式递推,逐步拼出整张图像。 这其实就是把图像建模问题“语言化”了,从语言模型的自回归策略中借力。 2. 图像Token化的关键:VQ-VAE or DALL·E Tokenizer? 把图像变成“token”到底是怎么做的?这背后通常使用的是离散化编码器(discrete image tokenizer),目前主流有两种方案: • VQ-VAE(Vector Quantized Variational Autoencoder):通过一个离散编码器将图像映射到固定词表的token索引; • DALL·E tokenizer:将图像压缩为32×32个图块,每个图块对应一个token,从一个图像词典中采样。 GPT-4o 很可能使用了类似 DALL·E 3 的图像tokenizer,但结合了更紧密的语言-图像对齐机制,使得文字控制图像内容的效果远好于旧架构。 3. 多模态共训:图、文、对话三模态统一语义空间 GPT-4o 的“生图”不是单纯的文本到图像生成,而是多模态统一建模的结果。 它不只是一个 image-to-text、text-to-image 的桥梁,而是通过统一的 Transformer 架构,将语言、视觉、音频等 modality 投射到同一个语义空间(shared embedding space)中,进行联合建模。 这带来了两个技术突破: • 更高效的图文对齐:模型通过joint training,在训练中学习如何从语言语境中预测图像token; • 上下文一致的图像修改:自回归架构天然支持“基于已有上下文继续生成”,用户可以连续对图像进行“对话式修改”,而无需重启生成。 例如,你先生成了一张沙滩图,再说“把天空换成晚霞”,GPT-4o 能在原始token基础上,重写部分区域token,实现局部可控重生成。 4. 技术挑战与突破 使用自回归方法生成图像并非新鲜事,早期如 ImageGPT、CogView 都做过尝试,但有如下瓶颈: • token数量过大:一张512x512的图像token可能达数千个,推理成本高; • 长程依赖建模困难:远处图像块之间的关系难以捕捉; • 图像质量劣于扩散模型:早期模型生成结果容易模糊或结构错乱。 GPT-4o 在这方面疑似采用了: • 高效token压缩机制(如更稀疏的token grid或patch-level tokenization); • 多尺度建模 + 段落式生成策略(类似语言的段落组织图像结构); • Attention优化(如sparse attention、局部注意力)来压缩计算复杂度; • 增强型对齐loss函数(如CLIP-style similarity loss + reconstruction loss)以强化图文一致性。 5. 展望:统一生成范式的关键拼图? GPT-4o 的图像生成能力标志着一种新趋势:自回归 + 多模态统一建模,正在挑战扩散模型一统江湖的格局。 优点在于: • 与语言模型深度集成; • 可控性强,支持多轮图像“对话”; • 统一模型支持多模态输入输出,便于部署和产品化。 缺点也很明显: • 高分辨率图像仍存在token爆炸问题; • 极端细节和艺术感仍可能逊于Stable Diffusion类扩散模型。 但长远看,随着视觉token效率提升、跨模态建模优化,自回归生成有望成为“通用生成模型”的核心骨架。 (图它画的,内容它写的🙂↔️,人只需要会提问就好了)
2
0
0
MooreAI
2天前
渐变背景的秘决
5
1
0
MooreAI
2天前
非常有趣的创意设计,只是用户会不会忘记点下单?
00:21
6
0
0
MooreAI
4天前
4o image generate 一个意思不到的玩法
使用 Google 探索 GPT-4o's "知识库"
prompt:
> a google images search result for the query "meme"
> 使用查询“meme”进行的谷歌图片搜索结果
Google 地图探索(图二)
伦敦谷歌地图截图,显示从威斯敏斯特教堂到伦敦桥的步行路线
Google 街景探索(图三)
3
1
0
MooreAI
4天前
MCP Claude 完全控制 ChatGPT 4o,以吉卜力风格生成完整的故事板!全部自动!!仅限 Mac
开源地址:
github.com
00:15
11
0
10
MooreAI
4天前
这是一个玩笑吗?
4
0
0
MooreAI
7天前
开源换脸又出新工具了:字节发布 InfiniteYou
体验地址:
huggingface.co
00:18
6
0
3
MooreAI
7天前
使用 Tripo + Blender 的 MCP 生成 3D 场景效果很真实,非常适合做 3D 游戏
01:24
13
0
2
MooreAI
9天前
二次元视频站做成这样的首页,还怕用户不下单吗?
00:10
12
5
6