即刻App年轻人的同好社区
下载
App内打开
MrCoffeeTalker
2年前
现有关于 Gemini Pro 识图的评价,可能是错的

Google 的 Gemini 一出,很多人都知道现在可以去 Bard 里体验 Pro 版了,但我发现这时评价「Gemini 的识图能力好坏」可能还为时过早。

这事我也觉得挺意外的,这两天一直在整理即刻上大家关于 Gemini 的分享,自己也试玩了 Bard 识图的功能,得出了和即友们一致的结论:

大体对象能识别出来,但是细节会出错。

比如我用同一张照片让 Bard 和 GPT-4 识别,Bard 只能看出柠檬,GPT-4 却可以识别出柠檬和背后的街景、物体。(以防万一,我还在切英文后又问了一次,细节依然表现不佳)

但当我整理到海外的一些信源,却发现推特博主 Brian Roemmele 在12月7日提到,现在还不能测试 Gemini 的图像处理能力,当前版本是用的 PaLm 的图像识别 x.com

刚好昨天经 @张楚琪-沉迷AI版 提醒,了解到Google 首选语言切英文、可以看到带 Gemini 版本的 Bard 更新日志。

今天我又去检查了下,发现从官方信息来看,意思也是这个版本的 Bard 还没用到 Gemini Pro 的识图能力(记得先更改首选语言为英文,否则可能看不到带 Gemini 的更新描述) bard.google.com

有两块的信息可以佐证这一点:

1. Bard 之前就能传图了,早在2023年7月就已经支持了上传图片识别,官方称用的是 Google Lens 的技术

2. Gemini 的更新只提到了文本能力,首次提及 Gemini 的更新日志中,官方的说法是「你可以用基于文本的提示词体验 Gemin Pro 加持的 Bard,其他模态的支持不久后就会有」,并没有提及任何图像识别能力相关的变化

综合这几方信息来看,大家在测评的可能是 PaLM 的识图能力,而不是 Gemini 的。

不过问题也不大,适当澄清后,我觉得现在的测评结论依然是很好的记录,可以对比之后 Gemini 识图加入 Bard 的表现变化。另一方面,大家的测评重点可以转移到文字信息的处理。

我觉得这也引出了时效性和真实性的平衡,新的变化出现,创作者都会想着尽早跟进,但也可能因此遗漏了一些事实错误,这是需要我们常记于心的。
03

来自圈子

圈子图片

AI探索站

101234人已经加入