体验了一下gemini3 pro image preview:
1. 目前API费用还是相对较高(中转站大概能降低到5毛1次)
2. 出图是类似funciton calling的形式,也就意味着如果AI认为你的文字内容不足以出图的话,它就纯文字回复你了,但费用还是生图的费用,这点有点拉跨。
3. 如果模型认为你的文字内容不足以出图的话他会给你提供多种设计方案你可以自己去选,这点我觉的很不错。
4. 虽然标称完美中文显示,但测试期间发现还是无法对清晰度做太高要求,有时候还是会糊。
5. 我认为最大的优势是自然语言的理解,确实是听人话听的最流畅的一个模型。
6. 如果想出比较好的图,可能需要对画布的设计有非常详细的描述,不然图有时候看着元素还是比较空。
测试场景为目前参与的自媒体横向,截图的prompt一般为:“请你帮我基于文案内容生成自媒体视频封面图” + 文案内容文字版 。
我觉的很强,值得关注。
------------
插播一下:gpt-5.1-codex-max xhigh模型,目前在我心中就是9月的Opus。
1. 指哪打哪能力非常强,之前几个组合尝试解决的BUG一致搞不利索,今天俩小时全部秒了。
2. 项目理解深度很强,不会像其他模型一样翻文件翻多了就迷糊。
3. 前端能力没变化,还是普通。
4. 费用高,但是和claude code比起来性价比还是高了(我CC一天至少120,CodeX一个月120好像都富裕)。
5. 规划能力不足,你让它办事可以,但是让它写规划的话比较差。
6. 能感觉到明显的强英文环境注入,可能也是保证效果的一环。
7. 速度很快。
8. CLI载体CodeX还是那么烂,只能当作启动器用。插件的话目前也没更新。