即刻App年轻人的同好社区
下载
App内打开
yusen
1年前
GPT 4到底有多强?文心一言和ChatGPT比还有多少差距?非技术人员如何比较全面地评价一个大语言模型的各种能力?作为早期投资人和对话式AI的狂热爱好者,我们从自身需求出发,总结推出了「Z-Bench」—— 一个为非技术人员定性测试大模型对话式产品(类 ChatGPT 产品)准备的测试集。

扫描小程序码可以打开查看全部300个测试prompts,以及GPT4,GPT3.5,百度文心一言(0317)的回答。这里面每一个模型的回答我们都只是取第一次回答,因此可能和你测试的结果有所不同。

Z-Bench 1.0 从基础能力、进阶能力、垂直能力 3 个角度出发,共提供了 300 Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。

我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。

欢迎大家扩散,拍砖,感谢!
24133

来自圈子

圈子图片

AI探索站

63344人已经加入