3 个小测试,GPT-4 答不上但 Gemini 却可能答上
虽然在各种地方看到关于 Gemini 多模态的讨论,但还是没有特别的概念,感觉说来说去都和官方文案差不多,于是回看了下 Gemini 官方演示视频,用 GPT-4 对比测试了下。
不测不知道,一测发现了 3 个 GPT-4 都答不上来的问题,其中两个就是 Gemini 官方演示中的例子。
1. 识别连线图画好后的结果
Gemini 官方演示最让我震惊的一个例子,给出一个未完成的连线图,每个点上都标好了序号,让 AI 识别画完图后是什么图案。
Gemini 在视频里回答说是螃蟹,ChatGPT 4 则回我说是笑脸。
推测后者表现不佳,是因为这不属于单纯的「图像->文本」的识别,而是要理解图中序号的含义,并在想象中推演结果,已经涉及到文字和图像的联动了,单纯把文本交给 GPT-4、图像交给 GPT-4V 的 ChatGPT 会很难处理。
2. 认出手绘的星座
Gemini 演示收尾的一个案例,我觉得选的很妙,演示者手绘画了一个双子座的星座图,正好对应 Google 新 AI 的名字 Gemini(双子座),让 AI 猜画的是什么。
视频里 Gemini 认出了双子座,我把同样的图丢给 ChatGPT 4,它却只能识别这是个星座,再追问是什么星座则答不上来。
老实说这个图,原本我以为 GPT-4 是能信手拈来的,没想到它栽了。
我猜是星座虽然常见,但手绘的星座能认出来更依赖点线之间的关联,而不是整体图像在海量数据中的共性特征。即便 GPT 训练数据中有星座图,估计也是现实的星空摄影为主,很难提取出特定星座的视觉特征,手绘星座图还是太过独特了,可能必须要图像理解才能认出来。
另外,这个案例放在最后,也让我想起了游戏宣传片制作中的尾音(the button),在最后抛出一个惊喜,可以再次挑逗下观众的正面情绪,让观众对视频的印象更深,我之前写过的一篇宣传片教程里有提到
www.gcores.com3. 回答中文语境下,🏀和🐔放在一起的含义
这个纯属灵光乍现,经常冲浪的朋友应该都知道是什么。
在我看来 emoji 也是一种图像元素,而篮球和鸡的组合在纯文本训练数据中肯定不会很常见。
结果真给我猜对了,抛出这个问题后,ChatGPT 4 立马意识到自己无法直接回答,转而调用 Web Browsing 开始联网搜索,但搜了一阵子也没答出来。
Gemini 多模态互动演示(YouTube):
youtu.be即刻这边
@张小吉 转的带翻译版本:
m.okjike.com