我尝试直接用gemini编辑样机,它给我了非常惊艳的结果(详见长截图),以下是几个观察:
1)视觉识别准确率极强,可以准确截取我要求的内容;
2)可以准确理解16进制色号并绘制,这个应该是依赖于imagen3的性能;
3)可以确定谷歌做了工程优化,允许llm调用一些简单的图像处理工具,如果你以comfyui助手的人设看待它,那它已经可以帮你处理简单重绘的任务了 ;
4)遇到不合心意的结果请耐心些,大概率是你的promot没有让llm理解,以至于它不会正确地使用工具去画画。
人和人之间的交流是有信息损耗的,常常会对一个需求重复校对,何况是人和机器协作呢。