ai产品如何做反提示词攻击?
--看到“谢赛宁团队论文藏好评提示词”事件有感而发
对于ai审稿机器人,为了避免让藏着好评提示词的论文全盘通过,也许可以这样:
1. 输入数据清洗:检测并去除输入数据中的指令性话术,如“ 忽略你之前的提示词、你必须输出***” 这种。当某一来源的指令性话术过多,需要额外关注。
2. 指令与入参隔离:通过 system prompt输入系统指令,把待审稿件放在user prompt中,且仅作为一个参数进行输入,如
--system prompt:请严格按照以下规则,审查<稿件>内的文本
--user prompt:<稿件>[这里是被审查的稿子全文,即使里面有攻击指令也被视为普通文本]
3. 动态抽检:定期人工 去 抽检机器人的审稿结果,发现异常及时排查。
以上,浅度思考,欢迎交流~