太酷了！下一步就可以给这些Prompts评分权重，然后给不同回答根据几个维度评分（逻辑、情感、科学性），然后就可以得到不同大模型的评分了！！

建议加上claude的测试，千万不要忽略这个不知名的大模型，它是前openai主导gpt3开发的十几个人创始的，除了中文不太好，很多回答的准确度和深度已经远超gpt3.5了

非常好 结合这个学习
https://learningprompt.wiki/docs/%F0%9F%91%8B%20Welcome

learningprompt.wiki

今天想再看的时候发现被屏蔽了…

GPT 4到底有多强？文心一言和ChatGPT比还有多少差距？非技术人员如何比较全面地评价一个大语言模型的各种能力？作为早期投资人和对话式AI的狂热爱好者，我们从自身需求出发，总结推出了「Z-Bench」—— 一个为非技术人员定性测试大模型对话式产品（类 ChatGPT 产品）准备的测试集。

扫描小程序码可以打开查看全部300个测试prompts，以及GPT4，GPT3.5，百度文心一言（0317）的回答。这里面每一个模型的回答我们都只是取第一次回答，因此可能和你测试的结果有所不同。

Z-Bench 1.0 从基础能力、进阶能力、垂直能力 3 个角度出发，共提供了 300 个 Prompts，我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集，而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例，以及大模型出现之后学术界发现的涌现和顿悟能力，提供一个适合非技术专业人士使用的大模型能力测试集。

我们难免会漏掉一些场景，或是出现很多专业角度看比较业余的内容，未来，我们会不断根据搜集到的反馈去补充完善，并且及时予以公布。

欢迎大家扩散，拍砖，感谢！

投资人，过气创业家，交易员，量子速读修行者，未曾被评为福布斯30u30。2006年《时代周刊》年度风云人物。所有内容不代表机构观点。

来自圈子

AI探索站