Google发布Gemini Ultra 。总体上Google表现越来越像职业经理人,好的角度来看稳妥成熟,另一个角度是保守。看不到那个要和nasa竞争人才的少年,闻到了屠龙少年终成龙的丝丝味道。
TEXT 的数据上来看使用trick看起来与GPT-4相当,比如MMLU的对比是COT@32 和 5-shot,在MMLU board中5shot Gemini成绩低于GPT-4,其他的不在列举。
MULTMODAL 的的数据表现里Iamge总体略好于GPT-4V,infographic和数学推理的部分领先的稍微多一些,也难怪辅导作业的场景是官方宣传的usercase。除了解决视觉上数学推理的问题,看起来是为后续数据分析做铺垫。
Video的部分,GPT-4V不在射程范围内,遥遥领先。
Audio重点放在了21个语言的翻译能力,62个语言的ASR能力。
翻译选择Whisper V2,看起来符合预期仍然存有疑问。
翻译的BLEU榜单没找到,为什么选择V2不是V3,且用了Gemini Pro做对比。
ASR WER(字错率,越低越好)在FLEURS的测试集上没有描述清楚,whisper V3的英语WER4.1,62个语种的测试平均值么?
看起来营销在测试报告支持的情况下,使用常见放大的做法用于宣传,也难怪被人diss 现在只会做PR。
Google采用和openAI正面刚的方式,在数据和场景上没有能超越或者引领想象力,在usercase和工程特性上的卖点略显乏善可陈。
战略守位做的很好,基础设施TPU、google AI studio。提供了GeminiNano支持androidOS层面的lora调优和离线调用。
至于其他的还是交给用户,google是不是可以让自家TPU打爆价格,可能才是正面刚的开始。
官方宣传:
deepmind.google测试报告:
storage.googleapis.com