即刻App年轻人的同好社区
下载
App内打开
张楚琪-沉迷AI版
2年前
The Batch (2024-01-10) 翻译。

主题:DPO,通过直接优化策略来对齐语言模型,而不是通过显式的奖励建模或强化学习

DPO 使用简单的分类损失来解决标准的 RLHF 问题,不需要在微调过程中从 LM 进行采样或进行大量超参数调整。

P.S. 文章来源是吴恩达 (Andrew Ng) 教授主理的一个 AI 周报,分享他对于 AI 的思考和洞察。

上一期:m.okjike.com

本期原文:www.deeplearning.ai
00

来自圈子

圈子图片

AI探索站

102973人已经加入