即刻App年轻人的同好社区
下载
App内打开
莫尔索
97关注1k被关注0夸夸
网络是网络,生活是生活
尽量少评价不懂的东西
尽量不用流行语
置顶
莫尔索
1年前
每一个困难的问题,都有一个很容易就能想到的错误的解决办法🥲
00
莫尔索
2天前
莫尔索
7天前
现在这种格局非常好,给想价投的长线资金创造机会,也给博弈的人群一个舞台,皆大欢喜🐶
00
莫尔索
9天前
市面上让 AI 操纵电脑(Computer Use Agent)的基准测试,大多在简化环境里做短交互,比如点几下按钮、填一个表单、从网页抓一段话,这些任务平均只有几步到几十步,页面逻辑也被大幅简化。SaaS-Bench 的团队觉得这样不够,他们用 23 个真实的开源 SaaS 系统进行测试,覆盖财务、医疗、软件工程、团队协作等 6 个专业领域,设计了 106 个需要跨应用协调的真实工作流任务,这些任务平均超过 100 步,93.4% 需要同时在两个以上系统里操作。

Claude Opus 4.7 作为表现最好的模型,checkpoint 分数(部分完成度)只有 43.9%,而端到端的 resolved 分数是 3.8%。GPT-5.5 High checkpoint 分数是 43.8%,resolved 分数只有 1.9%。GPT-5.4 High、Qwen 3.6 Plus、Kimi K2.5、Gemini 3.1 Pro resolved 分数全部是 0%。

假设一个任务有 12 个检查点,每个检查点独立通过的概率是 95%,那么全部通过的概率只有 0.95 12 次方,约等于 54%。而真实 SaaS-Bench 任务通常有 10 20 个检查点,实际通过率远低于 95%,在这种条件下,端到端完成率趋近于零。所有被测模型都表现出单调衰减:任务早期的检查点通过率相对较高,越往后越差。更强的模型在每个阶段的绝对通过率更高,但相对衰减的幅度和弱模型差不多。

当前 Agent 架构本身就不擅长维持长程状态,跨应用上下文跟踪、中间结果的传递、错误恢复,这些在短任务里暴露不出来的毛病,在 100 步以上的工作流里被无限放大。

SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?

05
莫尔索
13天前
热知识:Fable 5 40 t/s 下,时薪高达 40刀,超过99.9%的国内程序员薪资了😂,当然生产率也是指数级提高。
12
莫尔索
17天前
00