和大家分享个AI实践,这个案例有价值的点在于两个:
一是我完全不会代码,全程AI Copilot,这一点老生常谈,不多讲;
二是比较关键,整个过程,是把Gemini 3 、扣子工作流、扣子应用模式、飞书多维表格新发布的“应用模式”这一大堆新能力旁征博引联动了起来,能擦出不少火花。
我有一个品牌,在过去的品牌小红书更新中,我一直有一个痛点:就是图片库太多了(几千张),每次写好文案,想要找到合适的图片,可能需要比写文案更长的时间。
在今年11月,Google Gemini 3 发布,它最大的价值,是因为对于用户语意的理解和产出质量,让我对于 AI Copilot 有了非常深的体验,我决定,做一个工具解决以上的需求。
我想到了很多工具:
· 整体架构上,基于文案匹配图,本质上是许多标签的匹配——我采用了类似RAG(检索增强)架构的方案,一边是图和图片的描述,另一边是文案和对文案的拆解,两边都产出关键词,进行第一轮检索(粗排),然后让大模型基于粗排的结果进行匹配打分(精排),最终实现合适图片结果的输出;
· 飞书多维表格有单元格行的AI能力,并且可以上传图片——我可以把多维表格作为数据库,并且直接让AI读取图片,生成关于图片的描述;
· 扣子可以编排工作流,并且能够低代码绘制图形界面——我可以让扣子读取多维表格的接口,然后制作工作流完成文案对图的匹配。
有了这些最基础的能力,整个应用变得非常具有可行性,所以我立刻开始行动,中间遇到很多“拦路虎”,但在Gemini的帮助下,这些问题都逐个突破:
· RAG匹配的过程中,有时候需要代码节点帮我处理json格式——告诉Gemini 需求,它帮我写;
· 扣子应用模式搭建UI过程中,入参和出参有卡点——查阅网上其他案例,和Gemini成功解决;
· 扣子无法直接在公域展示飞书多维表格的图片——这个很棘手,考虑过公网图床、对象存储等方案,但最终我想到了飞书多维表格最近发布“应用模式”,可以将多维表格发布成一个网站,所以我就想,干脆不直接展示了,用多维表格应用模式搭一个检索能力,然后对匹配出来的图片,做一个“一键复制”编号按钮,就能实现在一个页面进行图片预览,虽然不如直接展示方便,但在MVP阶段,体验和功能也算是兼顾;
· 在扣子工作流搭建的网站,嵌入飞书多维表格应用模式的过程中,一直出现嵌入内容加载失败的问题,是因为字节火山引擎的鉴权问题——最终采用了Github托管网站,把Github生成的网站嵌入飞书多维表格,实现对火山引擎鉴权的绕过,这中间还遇到了OAuth 授权和PAT权限问题,也是和Gemini一起解决。
于是,经过了几个晚上的奋战,这个网站成功上线,它基于RAG架构,能够根据你的品牌小红书文案,帮你找到最匹配的图片,在大模型的加持下,匹配的效果很不错。