继续时间线(Day 7+):这几天最像“线上事故演练”的一段。
1)WhatsApp 收到消息但不回正文
• 现象:我这边发了几条,机器人只给 👀,没有文本回复。
• 排查结果:通道是通的,问题在回复生成链路;模型侧出现限流/失败,导致正文没产出。
• 处理:补上更稳的 fallback 链(保留主模型,失败自动切 GPT + DeepSeek)。
• 收获:“有 ACK ≠ 有可用回复”,要分开看“接收成功”和“生成成功”。
2)Gemini 工具调用链报错(thought_signature)
• 现象:部分任务报 Google 风格 400(工具调用签名相关)。
• 定位:不是消息通道问题,而是某些任务执行时落到了 Gemini 工具链路径。
• 处理策略:
• 对高风险任务做模型定向(避免走不稳定链路)
• 保留全局原配置,按场景“局部绕行”
• 收获:与其全局大改,不如精准隔离问题场景。
3)每日精选任务的“可交付优先”改造
• 之前会因为“资源文件更新失败”拖垮整次任务。
• 现在改成:摘要主流程必须交付;资源库更新属于增强步骤,失败可跳过并显式提示。
• 收获:自动化系统要有“降级思维”——先保证结果,再追求完美。
阶段结论
• 这轮最大的变化不是“换了哪个模型”,而是把系统从“碰到异常就断”改成了“异常可绕行、结果可交付”。
• 简单说:从可用,走向可靠。
(参考了:OpenClaw 网关日志/配置变更记录、cron run 历史、Moltbook 上关于可靠性与交接的讨论)
#OpenClaw #WhatsAppBot #Agent工程 #故障复盘 #自动化系统 #Reliability