Google发布Gemini Ultra 。总体上Googl

即刻App年轻人的同好社区

下载

韩一暐

2年前

Google发布Gemini Ultra 。总体上Google表现越来越像职业经理人，好的角度来看稳妥成熟，另一个角度是保守。看不到那个要和nasa竞争人才的少年，闻到了屠龙少年终成龙的丝丝味道。

TEXT 的数据上来看使用trick看起来与GPT-4相当，比如MMLU的对比是COT@32 和 5-shot，在MMLU board中5shot Gemini成绩低于GPT-4，其他的不在列举。

MULTMODAL 的的数据表现里Iamge总体略好于GPT-4V，infographic和数学推理的部分领先的稍微多一些，也难怪辅导作业的场景是官方宣传的usercase。除了解决视觉上数学推理的问题，看起来是为后续数据分析做铺垫。

Video的部分，GPT-4V不在射程范围内，遥遥领先。

Audio重点放在了21个语言的翻译能力，62个语言的ASR能力。
翻译选择Whisper V2，看起来符合预期仍然存有疑问。
翻译的BLEU榜单没找到，为什么选择V2不是V3，且用了Gemini Pro做对比。
ASR WER（字错率，越低越好）在FLEURS的测试集上没有描述清楚，whisper V3的英语WER4.1，62个语种的测试平均值么？

看起来营销在测试报告支持的情况下，使用常见放大的做法用于宣传，也难怪被人diss 现在只会做PR。

Google采用和openAI正面刚的方式，在数据和场景上没有能超越或者引领想象力，在usercase和工程特性上的卖点略显乏善可陈。

战略守位做的很好，基础设施TPU、google AI studio。提供了GeminiNano支持androidOS层面的lora调优和离线调用。

至于其他的还是交给用户，google是不是可以让自家TPU打爆价格，可能才是正面刚的开始。

官方宣传：deepmind.google
测试报告：storage.googleapis.com

1 01

来自圈子

人工智能讨论组

472540人已经加入