从 2025 年到现在 2026 年 6 月份 , AI 在长程任务的执行上逐渐成为模型的一个能力考验标准,也衍生出类似 Harness 这样的概念,
理想的场景是,我们写完需求文档和验收标准后,然后让 AI 自己执行、自己优化、直到完成全部验收标准,当它宣布“完成”的时候,我们进行验收,发现完完全全就是我们想要的,
但是说起来简单,真正要达到这个目标是极难的,
一方面是模型的底层能力限制,gpt 5.5 和 claude opus 4.6 出来后,我觉得这个倒不再是关键问题了,
那么最终的问题就来到了,你让 AI 去执行某个任务的时候,你得先定义清楚这个任务,
那么元问题就是,什么叫定义清楚呢?
比如你没有技术基础,不懂单元测试、集成测试或压力测试,你给出的验收标准就会是模糊的“感觉好用",
比如,如果你不懂交互设计,那么就只能模糊的描述,"我希望做出世界顶尖的设计,流畅的交互体验" 类似种种
谈谈自己最近的思考, 我理解的定义清楚可能需要满足两个条件:剩余自由度的无差异性 + 完成状态的可判定性,怎么理解呢,
首先,我觉得任何定义都不可能穷尽所有决策,定义不清楚会跑偏,过度定义同样也不行,很可能会剥夺了 AI 找到更优解的空间,剩余自由度的无差异性,就是确保所有"我们在乎"的维度都被约束住,剩下没约束的,它怎么选都能接受,
再说完成状态的可判定性,这里又得分三层,
1. 机器可判,测试、类型、benchmark
2. 规则可判,LLM-as-judge + 带锚定样例的评分规则——样例远比形容词重要,"克制的广告"写十遍不如三个好例三个坏例,因为样例携带隐性效用函数,
3. 人的最终判断,我们自己独有的风格,品味
一些自己目前的实操是:
1. 使用类似 Superpowers 和 Matt Pocock 的 grill-with-docs 这种脚手架标准,不要急着写代码,开始执行任务前反复讨论,几分钟对抗性问答,比后面改 bug 更省心
2. 产出的 Spec 文档,开独立的 agent 去审核,我现在是在 claude 里接入了 codex ,两边 battle,效果挺好
3. AI 执行成本已经很低了,我自己又没搞过设计,所以我现在是直接让 AI 生成多个交互原型,我再来挑,人识别好坏的能力远强于表述好坏的能力,用选择表达品味远强于我模糊的需求描述
5. 试试 claude 新出的 workflow,很大程度上解决了因为模型的上下文窗口有限和记忆问题,导致的长程复杂执行任务时,无法按照 spec 标准文档来执行的问题,就是有点耗 token 不能常规使用。这个后面再研究一下