跃问AI 的这个隐藏功能,“救了”我相册里2.4 万张图。
在我的手机相册里,至少有一半是「曾经想深入研究的内容」。
比如在线课程的截图、即刻等社区的配图、微信群里的信息图等等。
它们占了不小的内存,但真正我被继续研究过的,可能不到 1%。
1、
其中最重要的一个原因,是因为图片不如文字,研究起来特别麻烦:
如果图片中有文字,就得找个好一点的OCR 工具把字提取出来,麻烦;如果图中没有问题,更得找个好一点的搜索工具,把图片识别出来,更麻烦。
提取和识别,只是“万里长征的第一步”。文字提取过程中,字弄错和排版搞错的情况非常常见,为此我不得不手动调整……
2、
因此,如若不是特别感兴趣或者十分重要,我是懒得挨个研究的。这些年攒下来的小几万字图,就跟收藏夹里的文章一样,下载/截图即吃灰。
当然,包括ChatGPT 在内的AI,也是可以直接读图的。
可一来它们读取的准确度堪忧,二来读完也没法联网搜索,我还不如先走一遍OCR,再找个AI 搜索工具来得快。
3、
事情的转机,是即友
@Siyi又饿了 入职阶跃星辰后,跟我说了下他们跃问AI 的“拍照搜”功能特别能打。
不过聊完的前几天,我也没想到,跃问AI “拍照搜”可以解决我「资料图吃灰」的问题。
我最开始是下馆子的时候,随手拍了张菜单,试着让它搜了下图里的推荐菜。没想到,它真的能联网搜,不仅很快给我介绍了菜的情况,还搜出了菜的具体做法(图一)。
4、
这就有点让我刮目相看了,当即就跟
@Siyi又饿了 说,看来我还是跃问AI 用少了。
但是,我当时只想着下次逛超市的时候,搜点包装上的信息啥的,也就没怎么用起来。
直到这个周末,在回家的滴滴上,我随手测试了几张相册里的资料图,结果效果都很不错。于是,我越测越多,根本停不下来,甚至有点怪自己之前存的图不够了。
5、
我刚刚又翻了下记录,发现自己测的第一张,是周五在机场接长辈时候打车界面的截图。不算严格意义上的资料图(图二),但它有两点比较打动我:
①上传图片后,自动推荐问题。比如图中的“这是什么软件的界面”,是它自动推荐的3 个问题中的一个。
虽然我之前被很多AI 从业者认为是“提示词高手”,但问图片这个事,我也是大姑娘上轿——头一回,不太知道怎么问。
上传图片后,跃问AI 可以直接基于图片生成问题,就省了很多内耗,直接丝滑地进入问答环节。后面我也试过不少图,发现从探索资料图的角度来看,AI生成的问题基本够用了。
②图片中的信息,也识别得比较到位。
我在图片里找了几遍,也没找到过滴滴字样,它也识别出来了;界面中最关键的车的信息和等待时间,它也准确无误提取下来了。
在确保准的同时,响应速度也非常快,我基本上没有等它的感觉,这是很多国产AI 都做不到的。
6、
下一个 aha moment,是上传了张朋友圈配图,是某个讲座 PPT 上老师的介绍。
信息提取方面,还是一如既往地稳。可能是因为图中信息比较全了,第一轮的回答是直接基于图片回复。
回复完之后,跃问AI 继续推荐了 3 个问题,我选了其中一个,他马上开启了搜索。搜索出来的结果(图三),有点惊艳到我了:
因为我5年前就认识了这位老师,最近一年多都在深度合作。但他过往的一些战绩,我真还没那么细致地了解过。
7、
为什么我始终不能接受「不能联网的AI 读图」呢?因为我发现过太多的图片造假,只有联网搜到了可信度较高网站的相关内容后,我才愿意相信。
有时候我会直接去找出处,另外的时候我也会看看这些观点来自于什么样的人,ta 是否有可信服的成果。比如图四,我也搜了一下这位前 OpenAI 开发者关系负责人。
以往,我要通过繁琐的OCR、手动排版、复制粘贴等流程,才能验证;现如今,我只要把图片上传到跃问AI 上,很多我关心的点,可能它就已经生成了问题,点击后很快就搜到了结果。
感谢跃问AI的“拍照搜”这个隐藏功能,让我可以在碎片时间,把相册里的上万张资料图探索起来了。