今天看到 Anthropic Safeguards Research Team 的 Lead Mrinank Sharma 离职了,看了一下他最近关于 AI 削权的研究工作(把决策和行动外包给 AI),几个数据:
1、严重削权的比例占样本对话 <1‰(样本量150W);
2、Relationships & Lifestyle 占比到了 8%,编程等技术领域 <1%,在人际关系、心理、健康、价值冲突的领域里更容易把决策交给 AI。
3、大家给 AI 的头衔最多的是专家\顾问\导师(权威投射),也有主人、父母等,也有被要求将用户叫主人的;
4、削权风险的严重程度随时间上升,25 年 5 月后更明显,但作者说不确定因果(我猜是模型越强,风险越高);
5、被标记为高风险的对话里,用户更愿意点赞,说明用户更喜欢「你就说我应该怎么干」,但很多时候也会隔一段时间紧接着一个「我不应该听你的」,这代表了得到了不好的结果。
当你希望赋权给用户时,最后的结果却是在夺权,同时这并不是被 AI 引导做出的,而是用户主动寻求这个结果 🤔