在几个月前,用AI编程最大的痛点是AI的Debug能力很差,所以常常会出现“编程5分钟,Debug一小时”的情况。
当代码大部分由AI撰写时,人类进行调试所花费的时间,往往比调试自己手写代码时要多很多。
但是自从Opus 4.5 在 11 月 24 号发布之后,就能感受到AI Debug能力的明显提升。在一个多月的时间里,我都没有发现Opus长时间(半小时内)未能解决的Bug。现在,AI 编程的瓶颈从 debug,变成了代码审查。
之前用 Codex 5.1 的时候,主要用于代码审查。通常来说,在互评中,Codex 的审核更加严格,而 Claude 则更加宽松(Gemini 则最为宽松)。
但有时候严格提出的问题并非真问题,而是幻觉。同时,之前 Claude 未能解决的 bug,Codex 5.1 也都未能解决。所以我依然怀疑这只是模型输出风格的问题,是偏好问题,而不是Codex能力真的比 Claude 高。
再加上 Claude Code 的产品力比 Codex 要强太多,比如Claude Code 有 Subagent,而 Codex 没有。这样便一直没考虑切换到 Codex。
直到今天确实遇到了一个Opus 4.5 花了 40 多分钟,才勉强“解决”的复杂问题。但它的解法本质是绕过了问题,而非从根本上解决了。用 Codex 5.2,也是 40 多分钟解决了,但解法更加根本。
最近几天用 Codex 5.2 做代码审查,几乎所有的审查发现都是真实存在的。而且比 Opus 4.5 审查得到的结果,无论深度还是广度,都要更强。这两方面都让我对 Codex 5.2 的看法,相比Codex 5.1大为改观。
而我刚刚才得知的一个事实/观点是,Codex的自动上下文压缩能力非常强,在没有 subagent 的情况下,仅依靠自动上下文压缩,就能完成至少 5 小时的长程运行(且顺利完成对应工作量/复杂度的任务)。
看来是时候多用用 Codex 了。