启发论文：https://arxiv.org/abs/2308.07286

arxiv.org

为了避免输入信息带有各家名字引入偏见，这里都用编号表示，汇总后再送入 LLM 评测

做了一个国产大模型翻译评测 bot：
- 直接输入想要翻译的英文（或其他语言）
- 7 个国内大模型会输入对应的中文翻译，汇总后给出最佳翻译的投票意见（以编号形式投票）
- 输出结果是【7 家投票】+【编号背后的 llm】+【7 家翻译结果】

体验地址： https://www.coze.cn/s/iBpqCmaB/

通过这个 bot 的一些假设验证：
1. 评估任务比翻译任务简单，翻译不好的可以评估的很准确（和人工评估的结果 80% 概率相似）
2. 翻译成中文的效果很多国产模型已经超过 GPT4 和 Cladue 了
3.  个人体感是 deepseek 和通义的翻译结果最佳，且经常是最多票选（说明大语言模型评估结果可以作为一定参考）

研究 AI 中 | 🥽 做过 XR OS｜🎮给无人机做过游戏关卡|🪞给健身镜做新手引导｜🖥 给TV做过手势控制｜🧩视频是迷你传记

来自圈子

AI探索站