道阻且长——谷歌最新的 Gemini 多模态模型体验 Ge

即刻App年轻人的同好社区

下载

云中江树

12月前

道阻且长——谷歌最新的 Gemini 多模态模型体验

Gemini是谷歌最新的多模态模型系列，所谓多模态是指具备处理图像、音频、视频和文本的能力。Gemini系列包括三种不同规模的模型：Ultra、Pro和Nano，从大到小分别为不同应用场景设计，Ultra 最强，Pro 次之，Nano 主要用于手机等边缘设备。

关于这几个不同型号的模型：

（1）Gemini Ultra 的性能优于如今所有模型，在 32 个广泛使用的学术基准测试中的 30 个表现出了最先进水平，并且是第一个在 MMLU (57 个学科) 上超越人类专家的 AI。

（2）Gemini Pro 的性能与 Claude 2 相当，优于 GPT-3.5，这也是目前普通用户可以体验到的版本。

（3）Gemini 能够原生生成图像，而不必依赖中间自然语言描述 (转述会导致信息丢失)。

（4）Gemini 全型号的音频理解优于 Whisper。

目前用户能通过 bard 体验到 Pro 版本的部分能力，阅读 Gemini 的 report 和体验之后总结下面几点：

1. Gemini 主打原生多模态能力。什么叫原生多模态？即一个 AI 模型同时具备处理图像、音频、视频和文本的能力。OpenAI ChatGPT 目前我们体验到的多模态能力是由不同 AI 模型提供的，文本生成是 GPT-4 模型, 识别图片是 GPT4V (GPT-4 for Vision)模型,语音是 whisper 模型，生成图片是 DALL-E 3 模型。而 Gemini 一个模型即可完成上述所有事情，并且能力不弱，可喜可贺，恭喜谷歌！原生多模态是个人比较看好的路线，毕竟文本数据依赖人类创造知识，意味着 AI 认识世界还需要人作为媒介，而一旦模型能够从图像视频声音中直接学习，意味着可以直接从物理世界学习知识，想象空间更大！

2. 目前能用上的多模态能力有限，而且限制较多。现在还是识图功能，比较容易触发安全机制，模型拒绝回答。视频、语音、图像生成等功能有待开放，期待！

3. 幻觉问题依然存在。ChatGPT 存在的各种问题，多模态大模型依然存在，幻觉问题目前并未被解决。

4. 多语言表现不佳问题依然存在，非英语外的语言能力有待提高，中文表现不佳。相比 ChatGPT, bard 的中文理解能力较弱，对许多常用的中文任务和中文提示词理解较弱。据 techcrunch 报道，多语言问题还影响了 Gemini 的发布时间。

5. 体验不如 ChatGPT。 Ultra 模型虽然很强，但目前还没有开放使用，各方面指标看上去甚至优于 GPT-4，不过仔细分析评分与 GPT-4 差距不大，优势不明显。目前能用上的 Pro 版本模型性能与 ChatGPT 的各项对比来看有差距，不如 ChatGPT。并且作为中文用户，bard 的中文理解能力不足进一步放大了体验差距。

6. 谷歌进步很大，和生态结合的更好。相比几个月前使用的 bard，目前生成质量有明显提高，并且和搜索生态结合的不错，对最新的知识、新闻和图片等关联检索又快又好，这一点个人感觉体验比 bing 和 GPT 好，尤其是在 GPT 目前的使用性能体验一降再降的情况下。

15 18

来自圈子

AI探索站

77820人已经加入