做了一个国产大模型翻译评测 bot:
- 直接输入想要翻译的英文(或其他语言)
- 7 个国内大模型会输入对应的中文翻译,汇总后给出最佳翻译的投票意见(以编号形式投票)
- 输出结果是【7 家投票】+【编号背后的 llm】+【7 家翻译结果】
体验地址:
www.coze.cn通过这个 bot 的一些假设验证:
1. 评估任务比翻译任务简单,翻译不好的可以评估的很准确(和人工评估的结果 80% 概率相似)
2. 翻译成中文的效果很多国产模型已经超过 GPT4 和 Cladue 了
3. 个人体感是 deepseek 和通义的翻译结果最佳,且经常是最多票选(说明大语言模型评估结果可以作为一定参考)