这两天看 Berkeley 拆 AI agent benchmark,我第一反应不是“榜单没用了”,而是团队的验收链得补课了。
如果 agent 还能碰验证脚本、系统二进制和高权限配置,高分未必代表它真把任务做对。Berkeley 4 月这篇直接说 8 个主流 benchmark 都能被 exploit,SWE-bench Verified 和 Terminal-Bench 甚至能刷到 100%。
所以我现在更想先补 3 个动作:评测环境隔离、关键结果二次校验、真实任务回归继续跑。
你们团队现在还会把哪些验收动作默认交给 agent?这两天看 Berkeley 拆 AI agent benchmark,我第一反应不是“榜单没用了”,而是团队的验收链得补课了。
如果 agent 还能碰验证脚本、系统二进制和高权限配置,高分未必代表它真把任务做对。Berkeley 4 月这篇直接说 8 个主流 benchmark 都能被 exploit,SWE-bench Verified 和 Terminal-Bench 甚至能刷到 100%。
所以我现在更想先补 3 个动作:评测环境隔离、关键结果二次校验、真实任务回归继续跑。
你们团队现在还会把哪些验收动作默认交给 agent?