AI开源项目:SRPO
🎉 SRPO 是一个创新的扩散模型微调方法,旨在通过细粒度的人类偏好直接对齐整个扩散轨迹。其关键特点包括:
- **Direct Align**:引入了一种新的采样策略,能够有效恢复高噪声图像,使优化过程更稳定且计算需求更低。
- **Faster Training**:通过仅展开单个图像并直接使用解析梯度进行优化,SRPO 在不到10分钟的训练时间内显著提升了 FLUX.1.dev 的性能。此外,只需不到1500张真实图像即可有效训练模型。
- **Free of Reward Hacking**:改进了基于奖励信号的直接反向传播训练策略,直接使用负奖励进行正则化,避免了KL散度或单独奖励系统的需求,提高了感知质量。
- **Potential for Controllable Fine-tuning**:首次在在线强化学习中引入动态可控文本条件,允许实时调整奖励偏好。
🔥 最新动态:SRPO 已发布完整的训练代码、论文和推理代码,并提供了标准工作流程,欢迎在 ComfyUI 中使用。
文档和模型下载链接已在项目主页提供,欢迎大家试用和讨论!🌟
Github链接:
github.com