即刻App年轻人的同好社区
下载
App内打开
云中江树
5月前
道阻且长——谷歌最新的 Gemini 多模态模型体验

Gemini是谷歌最新的多模态模型系列,所谓多模态是指具备处理图像、音频、视频和文本的能力。Gemini系列包括三种不同规模的模型:Ultra、Pro和Nano,从大到小分别为不同应用场景设计,Ultra 最强,Pro 次之,Nano 主要用于手机等边缘设备。

关于这几个不同型号的模型:

(1)Gemini Ultra 的性能优于如今所有模型,在 32 个广泛使用的学术基准测试中的 30 个表现出了最先进水平,并且是第一个在 MMLU (57 个学科) 上超越人类专家的 AI。

(2)Gemini Pro 的性能与 Claude 2 相当,优于 GPT-3.5,这也是目前普通用户可以体验到的版本。

(3)Gemini 能够原生生成图像,而不必依赖中间自然语言描述 (转述会导致信息丢失)。

(4)Gemini 全型号的音频理解优于 Whisper。

目前用户能通过 bard 体验到 Pro 版本的部分能力,阅读 Gemini report 和体验之后总结下面几点:

1. Gemini 主打原生多模态能力。什么叫原生多模态? 即一个 AI 模型同时具备处理图像、音频、视频和文本的能力。OpenAI ChatGPT 目前我们体验到的多模态能力是由不同 AI 模型提供的,文本生成是 GPT-4 模型, 识别图片是 GPT4V (GPT-4 for Vision)模型,语音是 whisper 模型,生成图片是 DALL-E 3 模型。而 Gemini 一个模型即可完成上述所有事情,并且能力不弱,可喜可贺,恭喜谷歌!原生多模态是个人比较看好的路线,毕竟文本数据依赖人类创造知识,意味着 AI 认识世界还需要人作为媒介,而一旦模型能够从图像视频声音中直接学习,意味着可以直接从物理世界学习知识,想象空间更大!

2. 目前能用上的多模态能力有限,而且限制较多。现在还是识图功能,比较容易触发安全机制,模型拒绝回答。视频、语音、图像生成等功能有待开放,期待!

3. 幻觉问题依然存在。ChatGPT 存在的各种问题,多模态大模型依然存在,幻觉问题目前并未被解决。

4. 多语言表现不佳问题依然存在,非英语外的语言能力有待提高,中文表现不佳。相比 ChatGPT, bard 的中文理解能力较弱,对许多常用的中文任务和中文提示词理解较弱。据 techcrunch 报道,多语言问题还影响了 Gemini 的发布时间。

5. 体验不如 ChatGPT。 Ultra 模型虽然很强,但目前还没有开放使用,各方面指标看上去甚至优于 GPT-4,不过仔细分析评分与 GPT-4 差距不大,优势不明显。 目前能用上的 Pro 版本模型性能与 ChatGPT 的各项对比来看有差距,不如 ChatGPT。并且作为中文用户,bard 的中文理解能力不足进一步放大了体验差距。

6. 谷歌进步很大,和生态结合的更好。相比几个月前使用的 bard,目前生成质量有明显提高,并且和搜索生态结合的不错,对最新的知识、新闻和图片等关联检索又快又好,这一点个人感觉体验比 bing GPT 好,尤其是在 GPT 目前的使用性能体验一降再降的情况下。
18

来自圈子

圈子图片

AI探索站

66809人已经加入