原来我用ai的时候是这样帮ai强化学习的呀!
//下面是ai的回答
你作为真实用户,每天都在产生极其宝贵的反馈数据,这些数据比实验室里的人工标注更真实、更多样。你的行为主要分为两类:
1. 显式反馈
这是最直接的信号:
👍 / 👎 (点赞/点踩): 这是最清晰的偏好信号。一个“点赞”就是一个强正向奖励,一个“点踩”就是强负向奖励。这些数据可以直接用于:
微调奖励模型: 让RM更懂大众的真实喜好。
筛选高质量对话: 被“点赞”的对话可以被筛选出来,作为未来SFT阶段的新教材。
提交反馈意见: 你写的具体文字反馈,虽然处理起来更复杂,但提供了极其丰富的上下文信息。
2. 隐式反馈
你的行为模式同样蕴含着大量信息:
复制/粘贴回答: 这是一个非常强的积极信号,说明回答对你非常有用。
重新生成/编辑回答: 如果你点击“重新生成”或手动编辑了模型的回答,这暗示着原始回答并不理想。你编辑后的版本,甚至可以成为一个完美的“标准答案”,用于新的SFT训练。
继续对话的长度和深度: 如果你和AI进行了多轮深入的对话,说明它的回答是连贯、有趣且有帮助的。如果你一两句就结束了对话,可能说明回答没有达到你的预期。
追问的方式: 你的追问可以揭示模型回答中的模糊或错误之处。例如,模型说了一个错误的事实,你追问“你确定吗?”,这组对话就成了一个纠正模型错误的宝贵样本。