即刻App年轻人的同好社区
下载
App内打开
歸藏
2年前
小扎刚发言完,Meta 就出王炸?推出了可以进行自我奖励的 LLM。
简单来说就是语言模型可以自我判断模型质量,从而实现一定程度上的自我进化。

使用这个方法微调的 Llama 2 70B 模型,优于 AlpacaEval 2.0 排行榜上的Claude 2、Gemini Pro 和 GPT-4 0613等模型。

实现方式:

自奖励语言模型,这类智能体具备双重功能:一方面(i)它们能够作为遵循指令的模型,针对给定的提示生成回应;另一方面(ii)它们还能创造并评估新的指令遵循示例,并将这些示例加入到自己的训练集中。

我们采用了与 Xu 等人(2023年)最近提出的类似的迭代式动态评价优化(Iterative DPO)框架来训练这些模型。从一个基础模型出发,在每一轮迭代中,模型都会经历一个自我指令生成的过程,在这个过程中,模型针对新创造的提示生成候选回应,并由模型自身对这些回应进行奖励评分。

这个评分过程是通过让大语言模型扮演评判员(LLM-as-a-Judge)的方式来实现的,这本身也是一种遵循指令的任务。然后,根据这些生成的数据构建一个偏好数据集,并利用动态评价优化方法来训练下一轮的模型。

论文地址:arxiv.org
510

来自圈子

圈子图片

AI探索站

101234人已经加入