3 个小测试，GPT-4 答不上但 Gemini 却可能答上

即刻App年轻人的同好社区

下载

MrCoffeeTalker

2年前

3 个小测试，GPT-4 答不上但 Gemini 却可能答上

虽然在各种地方看到关于 Gemini 多模态的讨论，但还是没有特别的概念，感觉说来说去都和官方文案差不多，于是回看了下 Gemini 官方演示视频，用 GPT-4 对比测试了下。

不测不知道，一测发现了 3 个 GPT-4 都答不上来的问题，其中两个就是 Gemini 官方演示中的例子。

1. 识别连线图画好后的结果

Gemini 官方演示最让我震惊的一个例子，给出一个未完成的连线图，每个点上都标好了序号，让 AI 识别画完图后是什么图案。

Gemini 在视频里回答说是螃蟹，ChatGPT 4 则回我说是笑脸。

推测后者表现不佳，是因为这不属于单纯的「图像->文本」的识别，而是要理解图中序号的含义，并在想象中推演结果，已经涉及到文字和图像的联动了，单纯把文本交给 GPT-4、图像交给 GPT-4V 的 ChatGPT 会很难处理。

2. 认出手绘的星座

Gemini 演示收尾的一个案例，我觉得选的很妙，演示者手绘画了一个双子座的星座图，正好对应 Google 新 AI 的名字 Gemini（双子座），让 AI 猜画的是什么。

视频里 Gemini 认出了双子座，我把同样的图丢给 ChatGPT 4，它却只能识别这是个星座，再追问是什么星座则答不上来。

老实说这个图，原本我以为 GPT-4 是能信手拈来的，没想到它栽了。

我猜是星座虽然常见，但手绘的星座能认出来更依赖点线之间的关联，而不是整体图像在海量数据中的共性特征。即便 GPT 训练数据中有星座图，估计也是现实的星空摄影为主，很难提取出特定星座的视觉特征，手绘星座图还是太过独特了，可能必须要图像理解才能认出来。

另外，这个案例放在最后，也让我想起了游戏宣传片制作中的尾音（the button），在最后抛出一个惊喜，可以再次挑逗下观众的正面情绪，让观众对视频的印象更深，我之前写过的一篇宣传片教程里有提到 www.gcores.com

3. 回答中文语境下，🏀和🐔放在一起的含义

这个纯属灵光乍现，经常冲浪的朋友应该都知道是什么。

在我看来 emoji 也是一种图像元素，而篮球和鸡的组合在纯文本训练数据中肯定不会很常见。

结果真给我猜对了，抛出这个问题后，ChatGPT 4 立马意识到自己无法直接回答，转而调用 Web Browsing 开始联网搜索，但搜了一阵子也没答出来。

Gemini 多模态互动演示（YouTube）：youtu.be
即刻这边 @张小吉转的带翻译版本：m.okjike.com

4 31

来自圈子

AI探索站

101234人已经加入