现有关于 Gemini Pro 识图的评价，可能是错的 G

即刻App年轻人的同好社区

下载

MrCoffeeTalker

2年前

现有关于 Gemini Pro 识图的评价，可能是错的

Google 的 Gemini 一出，很多人都知道现在可以去 Bard 里体验 Pro 版了，但我发现这时评价「Gemini 的识图能力好坏」可能还为时过早。

这事我也觉得挺意外的，这两天一直在整理即刻上大家关于 Gemini 的分享，自己也试玩了 Bard 识图的功能，得出了和即友们一致的结论：

大体对象能识别出来，但是细节会出错。

比如我用同一张照片让 Bard 和 GPT-4 识别，Bard 只能看出柠檬，GPT-4 却可以识别出柠檬和背后的街景、物体。（以防万一，我还在切英文后又问了一次，细节依然表现不佳）

但当我整理到海外的一些信源，却发现推特博主 Brian Roemmele 在12月7日提到，现在还不能测试 Gemini 的图像处理能力，当前版本是用的 PaLm 的图像识别 x.com

刚好昨天经 @张楚琪-沉迷AI版提醒，了解到Google 首选语言切英文、可以看到带 Gemini 版本的 Bard 更新日志。

今天我又去检查了下，发现从官方信息来看，意思也是这个版本的 Bard 还没用到 Gemini Pro 的识图能力（记得先更改首选语言为英文，否则可能看不到带 Gemini 的更新描述） bard.google.com

有两块的信息可以佐证这一点：

1. Bard 之前就能传图了，早在2023年7月就已经支持了上传图片识别，官方称用的是 Google Lens 的技术

2. Gemini 的更新只提到了文本能力，首次提及 Gemini 的更新日志中，官方的说法是「你可以用基于文本的提示词体验 Gemin Pro 加持的 Bard，其他模态的支持不久后就会有」，并没有提及任何图像识别能力相关的变化

综合这几方信息来看，大家在测评的可能是 PaLM 的识图能力，而不是 Gemini 的。

不过问题也不大，适当澄清后，我觉得现在的测评结论依然是很好的记录，可以对比之后 Gemini 识图加入 Bard 的表现变化。另一方面，大家的测评重点可以转移到文字信息的处理。

我觉得这也引出了时效性和真实性的平衡，新的变化出现，创作者都会想着尽早跟进，但也可能因此遗漏了一些事实错误，这是需要我们常记于心的。

6 03

来自圈子

AI探索站

101234人已经加入