即刻App年轻人的同好社区
下载
App内打开
Alchian花生
2年前
虽然评分全面领先,但是Gemini是不是真的比GPT-4更强了?

我的答案是未必。

从现在呈现出来的信息上,我们至少还有些几点是需要关心的:

1、现在大型语言模型模型评估方法已经相对标准化了,有可能存在针对这些特定任务集过度拟合和优化的情况,当模型要实际去完成每个人的任务时,表现不一定跟评分一致;

2、部分任务上,Gemini和GPT-4的评估方法,主要是Prompt的撰写方式和技巧是存在差异的,比如在最主要的这项任务上,Gemini用的是COT(思维链的方法),而GPT-4当时评估时用的是少示例提示,这种比较有一些不公平存在;用诺贝尔奖得主丹尼尔卡尼曼在《思考,快与慢》提到的这本书的系统一、系统二理论来说,GPT-4做任务时采用的是系统一的直觉思维,直接给答案;而Gemini在做这部分任务时是用系统二的缓慢的理性思维,你可以理解为是比GPT-4花了更多时间去思考的;

3、还有相当重要的一点是,Gemini Ultra还处于安全检查,进行进一步的基于人类反馈的强化学习,如果你有印象的话,微软在GPT-4正式完成检查和发布前曾经做过一轮测试,当时GPT-4的能力是更强的,但是后来OpenAI在安全性上做了越来越多的处理后,模型能力反而变差了。所以,Gemini到时实际发布出来的版本是不是会跟现在一样好,我是有一层疑问的。

4、大型语言模型除了基本的参数背后所代表的语料知识和逻辑能力之外,实际上能不能访问互联网、能不能使用其他工具,其实都会影响模型的任务表现。搭载了Gemini Ultra的Bard,你可以理解为短期内还会是缺乏网页浏览、代码解释器、plugins插件这些工具的。缺了工具的话,你可以理解为赤手空拳的泰森去打一个拿着冲锋枪的海豹突击队成员,就算泰森更强壮,速度更快,那还是打不过枪的。
34

来自圈子

圈子图片

AI探索站

101277人已经加入