市面上让 AI 操纵电脑(Computer Use Agent)的基准测试,大多在简化环境里做短交互,比如点几下按钮、填一个表单、从网页抓一段话,这些任务平均只有几步到几十步,页面逻辑也被大幅简化。SaaS-Bench 的团队觉得这样不够,他们用 23 个真实的开源 SaaS 系统进行测试,覆盖财务、医疗、软件工程、团队协作等 6 个专业领域,设计了 106 个需要跨应用协调的真实工作流任务,这些任务平均超过 100 步,93.4% 需要同时在两个以上系统里操作。
Claude Opus 4.7 作为表现最好的模型,checkpoint 分数(部分完成度)只有 43.9%,而端到端的 resolved 分数是 3.8%。GPT-5.5 High 的 checkpoint 分数是 43.8%,resolved 分数只有 1.9%。GPT-5.4 High、Qwen 3.6 Plus、Kimi K2.5、Gemini 3.1 Pro 的 resolved 分数全部是 0%。
假设一个任务有 12 个检查点,每个检查点独立通过的概率是 95%,那么全部通过的概率只有 0.95 的 12 次方,约等于 54%。而真实 SaaS-Bench 任务通常有 10 到 20 个检查点,实际通过率远低于 95%,在这种条件下,端到端完成率趋近于零。所有被测模型都表现出单调衰减:任务早期的检查点通过率相对较高,越往后越差。更强的模型在每个阶段的绝对通过率更高,但相对衰减的幅度和弱模型差不多。
当前 Agent 架构本身就不擅长维持长程状态,跨应用上下文跟踪、中间结果的传递、错误恢复,这些在短任务里暴露不出来的毛病,在 100 步以上的工作流里被无限放大。