昨天在github copilot 中使用 gpt 5.2 codex 解决一个 whisperx 加载模型的问题,这个问题我感觉可能之前就有人遇到过,直接 Google 应该是最快的方法,但我还是想测试下模型的能力。
这个问题的报错其实比较详细的说明了问题,然后提供了两个解决方案(注意是报错信息自己提供的)。然而如很多这种自己提供信息的报错一样,这些信息可能是不正确或者说不符合你的情况的。
然后 5.2 codex 果然就直接按照这个并不正确的信息给我进行了修复,增加了小十行代码。再次运行依然是报错。
然后我自行 Google,一分钟(毫不夸张)找到解决方案:无需改代码,仅需增加一个 env。
如果把报错直接贴在 ChatGPT 5.2 thinking 上,我相信应该是能给出正确方案的,因为其大概率会使用搜索。
但是频繁使用搜索一定好吗?我个人觉得不一定。有些时候,比如刚才这种情况,你知道这个问题前人很可能遇到过,就应该毫不犹豫使用搜索。但是你如果事事都进行搜索,反而会增加噪声,不利于问题的解决。
那现在的模型可以比较好的区分吗?我个人觉得大概 70 分左右吧。