由上次跟
@奕辛 @Mr.Chou 交流延伸得到的一些想法:Heuristics for AI Product Design 之
【AI 产品的透明度和可信赖性】-2
信任是人工智能应用的基石,但实现信任却往往面临”透明度悖论”。诚实至关重要,但直言不讳地陈述 AI 产品自身的局限性,而不提供背景信息可能会让用户对产品能力丧失信心。这时候应当重新审视我们进行透明度披露的目的——管理用户期待,而不只是单纯地披露技术细节。毕竟用户看不懂技术细节,也不关心技术细节。对于他们来说,自己的痛点有没有得到解决、自己的体验是不是良好才是最值得关注的事。
关于透明度披露的策略:
准确度和置信度(confidence score)等指标至关重要,但需要谨慎呈现,注意这个值的可读性和可理解性。对于非专业用户来说,他们看不懂过于抽象或者理论的术语,也不能解读置信度 67 分和 78 分对于他们来说有什么区别。因此,单一的“打分制”来展示“透明度”很可能行不通,况且用户看到分数,也不知道他们下一步应当采取行动。
例如,用户在使用 AI 文档自动化助手,看到单个任务处理的置信度被评为65 分,如果没有进一步的解释,这个分数容易让人困扰:应该自己手动检查呢?还是应该重新自动化一次?这个 AI 可信任吗?
更合适的做法是,用可视化的形式配合展示置信度,比如分数低的用警示色;将置信度高、低的具体含义翻译成用户易于理解的术语,并进一步转化为下一步行动的提示和建议:例如:“此类数据的可信度很高”,“这个任务有xx 个风险点,请手动核实”。
此外,置信度的显示应当与风险评估和预警系统结合。什么样的任务应当触发预警?所有异常任务都要预警吗?答案当然是否定的,不然容易导致“狼来了”事件。
可以考虑实施分层警报系统,为有需要的用户提供深入了解细节的选项,让用户优先处理关键警告,同时利用AI 通过自动对比、索引引导等方式过滤误报,以对抗可能带来的警报疲劳。理论说起来太抽象,举个具体例子:
还是刚才 AI 文档自动化处理的场景:可以把置信度等级分为两档,正常和低,用户可以利用筛选功能分别查看低分任务(关键警告)和正常任务(分层预警、提供细节),并在 AI 的带领下逐一排查低分任务中需要手动核实的地方(自动索引、智能对比)。后续 AI 还可以提供汇总报告,总结低分任务的共性,一方面供用户查看,一方面可以供算法调整,进一步可以做到在类似风险点时自动提示用户等类似的行动。
上一篇回顾,地址:
m.okjike.com后续预告【AI 任务过程展示和主动性探究】
【AI 任务失败反馈与用户干预接管】
边写边更新,这个专栏的发展路线跟我之前想的不太一样,但这也是write in public 的魅力~
想看最初 outline 的小伙伴可以看这里
m.okjike.com