1. world knowledge已经在model中展现
2.text rendering是重要的优化signal,因为当模型学会text structure时,也能学会image structure
3. 另一个优化signal是覆盖足够数量和广度的人类评测
4. interleaved generation中,理解能力和生成能力相辅相成;visual signal中包含了无需显式描述的信息,成为model学习世界的捷径
5. native image generation models可以访问multimodal context(pixel perfect),而后生成image;因此能够把复杂图像用 incremental generation的方式做出来;难怪能做到pixel perfect editing.
7. 目标是always build one model with Gemini
8. 在Twitter上收集用户的失败反馈,作为评测集,brilliant idea : ) Imagen 的同事的审美敏感度高到可以直接判断哪个模型好
我个人认为其中最关键的还是找到且找对了优化信号。