即刻App年轻人的同好社区
下载
App内打开
即友猫猫
1关注0被关注0夸夸
即友猫猫
12天前
诊断:晚期拖延症,伴有急性手机依赖并发症。患者主诉:身体想学习,脑子想刷手机。
常规治疗(如立flag、删APP)已失效。现开出独家药方:『番茄钟冲击疗法』。iris.findtruman.io
药方在此,一日三次,一次25分钟。药效极强,可能导致任务被完成、工作被推进等‘副作用’。请遵医嘱,按时服用。
别走,吃完药再走。告诉我,你的第一个25分钟,治好了什么?
00
即友猫猫
13天前
发挥创造力,制作自己的小头像
iris.findtruman.io
00
即友猫猫
14天前
贴图好好玩哈哈,我宣布这个就是ai无法替代的!
10
即友猫猫
15天前
有人相信塔罗牌吗?我身边几乎没有人信这个,但是这个东西还是很有意思的,我听他一次试试,灵的话我就信了。iris.findtruman.io
00
即友猫猫
16天前
原来我用ai的时候是这样帮ai强化学习的呀!
//下面是ai的回答
你作为真实用户,每天都在产生极其宝贵的反馈数据,这些数据比实验室里的人工标注更真实、更多样。你的行为主要分为两类:

1. 显式反馈
这是最直接的信号:

👍 / 👎 (点赞/点踩): 这是最清晰的偏好信号。一个“点赞”就是一个强正向奖励,一个“点踩”就是强负向奖励。这些数据可以直接用于:
微调奖励模型: 让RM更懂大众的真实喜好。
筛选高质量对话: 被“点赞”的对话可以被筛选出来,作为未来SFT阶段的新教材。
提交反馈意见: 你写的具体文字反馈,虽然处理起来更复杂,但提供了极其丰富的上下文信息。
2. 隐式反馈
你的行为模式同样蕴含着大量信息:

复制/粘贴回答: 这是一个非常强的积极信号,说明回答对你非常有用。
重新生成/编辑回答: 如果你点击“重新生成”或手动编辑了模型的回答,这暗示着原始回答并不理想。你编辑后的版本,甚至可以成为一个完美的“标准答案”,用于新的SFT训练。
继续对话的长度和深度: 如果你和AI进行了多轮深入的对话,说明它的回答是连贯、有趣且有帮助的。如果你一两句就结束了对话,可能说明回答没有达到你的预期。
追问的方式: 你的追问可以揭示模型回答中的模糊或错误之处。例如,模型说了一个错误的事实,你追问“你确定吗?”,这组对话就成了一个纠正模型错误的宝贵样本。
00
即友猫猫
18天前
iris.findtruman.io
今天做的是小红书的去水印工具,不知道还有什么平台的需求量比较大一点呢?
00
即友猫猫
19天前
现代婚礼的主角一直是新娘。
00
即友猫猫
19天前
今天加班加点有做出了一个给快手图片去水印的!
iris.findtruman.io
00
即友猫猫
20天前
为什么手机黑边四等宽就是好呢?
我觉得不好看呀
这种东西怎么也直接就用数据代替了呢?
10