这个是我最近看到最有趣的一个2D图像生成模型,一是通过图像神经场来训练扩散模型,二是这个模型生成的图是我看到的最“真实”的AI生成图,即用充分合理的细节,又没有过度的“美化”——如过锐化、过饱和、过风格化,很接近相机直出的效果。
Image Neural Field Diffusion Models
🧐Image Neural Field Diffusion Models是一种新的扩散模型,通过在图像神经场上进行训练,可以生成任意分辨率的图像,相较于固定分辨率的模型具有显著优势。
➡️链接:
yinboc.github.io✨重点
1. **扩散模型的优势**:稳定训练、覆盖训练分布模式、无需额外训练即可解决逆问题。
2. **连续图像分布学习**:通过在图像神经场上训练扩散模型,可以渲染任意分辨率的图像。
3. **方法概述**:将训练图像下采样到固定分辨率,编码得到潜在表示,通过解码器生成特征图,再通过神经场渲染器生成高分辨率图像。
### 工作原理
1. **训练过程**:
- 下采样训练图像到固定分辨率,编码得到潜在表示。
- 解码器生成特征图,通过神经场渲染器生成高分辨率图像。
- 使用卷积局部图像函数(CLIF)提高生成能力,确保尺度一致性。
2. **高分辨率生成**:
- 扩散生成64×64潜在表示,并在2048×2048分辨率输出(256×256块)。
3. **文本到图像生成**:
- 使用CLIF渲染微调Stable Diffusion,实现2048×2048分辨率的文本到图像生成。
### 应用领域
1. **任意尺度高分辨率图像反演**:解决多尺度条件定义的高分辨率图像问题,无需额外训练任务。
2. **布局到图像生成**:无需额外训练任务,即可进行布局到图像生成。
这个新方法展示了扩散模型在生成高分辨率和多尺度一致性图像方面的显著优势。