即友猫猫的个人主页

即刻App年轻人的同好社区

下载

即友猫猫

1关注0被关注0夸夸

即友猫猫

12天前

诊断：晚期拖延症，伴有急性手机依赖并发症。患者主诉：身体想学习，脑子想刷手机。
常规治疗（如立flag、删APP）已失效。现开出独家药方：『番茄钟冲击疗法』。iris.findtruman.io
药方在此，一日三次，一次25分钟。药效极强，可能导致任务被完成、工作被推进等‘副作用’。请遵医嘱，按时服用。
别走，吃完药再走。告诉我，你的第一个25分钟，治好了什么？

0 00

即友猫猫

13天前

发挥创造力，制作自己的小头像
iris.findtruman.io

0 00

即友猫猫

14天前

贴图好好玩哈哈，我宣布这个就是ai无法替代的！

0 10

即友猫猫

15天前

有人相信塔罗牌吗？我身边几乎没有人信这个，但是这个东西还是很有意思的，我听他一次试试，灵的话我就信了。iris.findtruman.io

0 00

即友猫猫

16天前

原来我用ai的时候是这样帮ai强化学习的呀！
//下面是ai的回答
你作为真实用户，每天都在产生极其宝贵的反馈数据，这些数据比实验室里的人工标注更真实、更多样。你的行为主要分为两类：

1. 显式反馈
这是最直接的信号：

👍 / 👎 (点赞/点踩)：这是最清晰的偏好信号。一个“点赞”就是一个强正向奖励，一个“点踩”就是强负向奖励。这些数据可以直接用于：
微调奖励模型：让RM更懂大众的真实喜好。
筛选高质量对话：被“点赞”的对话可以被筛选出来，作为未来SFT阶段的新教材。
提交反馈意见：你写的具体文字反馈，虽然处理起来更复杂，但提供了极其丰富的上下文信息。
2. 隐式反馈
你的行为模式同样蕴含着大量信息：

复制/粘贴回答：这是一个非常强的积极信号，说明回答对你非常有用。
重新生成/编辑回答：如果你点击“重新生成”或手动编辑了模型的回答，这暗示着原始回答并不理想。你编辑后的版本，甚至可以成为一个完美的“标准答案”，用于新的SFT训练。
继续对话的长度和深度：如果你和AI进行了多轮深入的对话，说明它的回答是连贯、有趣且有帮助的。如果你一两句就结束了对话，可能说明回答没有达到你的预期。
追问的方式：你的追问可以揭示模型回答中的模糊或错误之处。例如，模型说了一个错误的事实，你追问“你确定吗？”，这组对话就成了一个纠正模型错误的宝贵样本。

0 00

即友猫猫

18天前

iris.findtruman.io
今天做的是小红书的去水印工具，不知道还有什么平台的需求量比较大一点呢？

0 00

即友猫猫

19天前

现代婚礼的主角一直是新娘。

0 00

即友猫猫

19天前

白菜猪肉炖粉条: 隔壁部门的瓜「只要胆子大，领导放产假」新来的毕业生让女领导怀了可恶，下班才听到这个瓜！

0 00

即友猫猫

19天前

今天加班加点有做出了一个给快手图片去水印的！
iris.findtruman.io

1 00

即友猫猫

20天前

为什么手机黑边四等宽就是好呢？
我觉得不好看呀
这种东西怎么也直接就用数据代替了呢？

2 10

白菜猪肉炖粉条: 隔壁部门的瓜 「只要胆子大，领导放产假」 新来的毕业生让女领导怀了 可恶，下班才听到这个瓜！

白菜猪肉炖粉条: 隔壁部门的瓜「只要胆子大，领导放产假」新来的毕业生让女领导怀了可恶，下班才听到这个瓜！