Prometheus 2 一个专门用于评估大语言模型质量的模型。
之前也有一些开源的评测模型,但它们要么和人类评分差异很大,要么只能做固定形式的评测。
Prometheus 2的特点是:
1)它的评分和人类非常接近;
2)它既可以给文本直接打分,也可以比较两个文本哪个更好;
3)它可以根据用户给的具体标准来评分,而不局限于通用的标准。
论文作者通过合并两个模型的参数得到了Prometheus 2:一个模型是用直接打分的数据训练的,另一个是用文本比较的数据训练的。
项目地址和模型下载:
github.com