很多人知道 Gemini / GPT 生图可以塞 JSON,但不清楚对做产品、尤其是 Agent 有什么用。
最近一个项目实践中才发现, JSON 不是炫技,是把「创意描述」升级成「机器可读的清晰参数」。
对 Agent 来说,生图提示词最怕两件事:一段长文本里改一个词就全乱;一次要出很多张,每张都有差异(角度、场景、比例清晰度等)。用结构化 JSON,Agent 可以:
1️⃣ 像管配置一样管 prompt
每个字段对应一个维度:风格、构图、主体、色调、比例……Agent 只改需要变的字段,其它不动,稳定性会比「重新写一整段话」高很多。也方便做成工具调用(tool)的入参:模型返回 JSON,下游直接交给生图 API。
2️⃣ 一次出多张:模板 + 变量替换
把 JSON 当成模板,占位符只在 subject、copy、variant_id 这类字段里轮换,Agent 循环或并行生成多份 JSON,就能批量出同风格、同布局的系列图(例如同一套电商主图 N 个 SKU、同一 campaign 多版文案)。比让 Agent 每次从零写一长段自然语言,成本更低、也更可复盘。
3️⃣ 和前端表单天然对齐
产品里常见:用户在下拉里选「比例」「风格」「主色」,输入框里写「标题」「副标题」。这些输入本身就长得像 JSON 的 key-value。前端表单 → 序列化成 JSON → Agent 校验/补全 → 再喂给生图模型,整条链路不用在「长提示词字符串」里反复拼接字符串、也不用在业务层写一堆 if 去抠字眼。
一句话:JSON 提示词 = 生图领域的「强类型接口」。对人好读,对 Agent 好写、好改、好批量;对上产品,还能和 UI 表单一一映射,后期加字段也不用推翻整套 prompt 叙事。
同款封面图 可以在 找到
aihaibao.org