即刻App年轻人的同好社区
下载
App内打开
Xinran.Z
8月前
Heuristics for AI Product Design 之
【如何披露AI 的思考(Think)更合适?】
Reasoning model 的普及让我们开始习惯于看到AI的思考过程。这是因为当我们需要信任并依赖它们的分析结果时,理解其背后的“思考”过程变得至关重要。

那么,如何向用户展示AI分析的过程?之前有小伙伴来问:是要直接展示出AI分析的假设和判断依据?还是这些假设和判断依据应该人来准备好作为上下文的一部分喂给AI?

以下是一些这段时间的 Research 和思考结果,欢迎大家一起讨论:

目前市面上主要存在两种策略:

1.让AI自己“讲故事”(AI生成的解释)

最直接省事的方式是让 AI自己解释它的分析步骤,比如最常用的“思维链”(Chain-of-Thought)提示。这种方法能让我们直接一窥AI处理任务的方式,展示它构建逻辑或遵循步骤的能力。

- 好处:能直观展示AI的“思考”路径(或者说它模拟的路径),帮助用户理解模型如何处理信息。

- 问题:AI生成的解释往往非常、貌似合理(Plausible)-------听起来逻辑清晰,但它们常常并不真的反应模型内部真正的、复杂的计算过程。很多时候,这更像是AI在得出答案后“事后诸葛亮”编造的理由,而不一定是它真实的决策依据。过度信任这种解释可能会被误导,甚至可能暴露模型隐藏的偏见或逻辑谬误,以及产生“幻觉”。

2. 人类准备/验证的解释

另一种策略是由人类专家来准备或严格验证解释内容,或者设计一个框架(通常结合Human-in-the-Loop, HITL),为AI的分析提供背景和依据。

- 好处:最大限度地保证了解释的准确性(Accuracy)、可靠性(Reliability)和安全性。人类可以确保解释符合事实、伦理规范和预期目标。这对于金融、医疗等高风险领域至关重要,因为在这些领域,决策失误的代价极高。

- 问题:这种解释可能无法反映AI实际的运算路径,它更多解释的是任务本身的逻辑或人类期望AI遵循的逻辑。用户可能会误以为AI就是严格按照这个人类设计的步骤来思考的。此外,对于需要处理海量不同输入的场景,完全依赖人类准备解释,成本高、扩展性差。

3. 怎么选

到底哪种方法更好?答案是:没有绝对的优劣,得具体场景具体分析:

- 高风险应用(如医疗诊断、金融风控):这些情况下,误导或不准确的解释可能会造成巨大的伤害。因此最好让人类准备或严格验证的解释(用策略二或混合策略)。准确性和责任是第一位的,解释必须可靠。

- 低风险任务(如创意生成、内容摘要):使用AI生成的解释(策略一)是可行的。这些场景主要是帮助用户建立一个关于其能力和局限性的心智模型,或提供灵感,而不是保证事实的100%准确性。但必须清晰标注这是“AI生成的解释”,并告知用户其局限性。

4. 最佳实践:

实践中,混合策略往往是最佳选择:

- AI生成,人工验证 (HITL):让AI生成初稿,再由人类专家审核、编辑、确认。或者让人类处理AI低置信度的分析结果。人类可以根据预定义的标准(如准确性、相关性、品牌一致性)对解释质量进行评分 ,纠正事实错误或幻觉 ,消除偏见 ,或确保符合安全准则。 这种反馈还可用于迭代改进AI模型本身(例如,通过对纠正后的示例进行微调)。

- 人类提供框架,AI进行阐释:AI定义与任务相关的核心原则、约束条件、关键知识要素或高级推理结构。然后,AI (例如通过prompt engineerring或 RAG)将人类准备好的上下文提供给AI,以指导其生成更详细的解释,这些解释应基于经过验证的信息或遵循所需的逻辑流程。

- 分层解释:先提供一个简洁、经人类核准的摘要,同时允许感兴趣的用户查看更详细的解释—-可能是AI生成的原始分析过程或者基本技术数据。

另外,人们有时会本能地不信任AI 生成的内容,即使AI做得很好。但另一方面,当AI的解释听起来特别有说服力时,人们又容易过度依赖,即使解释是错误的。因此,在设计解释性功能时,充分考虑用户的认知特点和潜在偏见非常重要,也是最考验产品功力的所在。

前情回顾:m.okjike.com
01

来自圈子

圈子图片

产品经理的日常

202867人已经加入