最近用 Cline 通过自建的 LLM 路由调用 Gemini API(试了 gemini-2.5-pro-exp,用的 OpenAI 兼容模式),结果发现 Cline 统计的 Token 使用量高得离谱,比我后台通过接口返回的 usage 字段实际算出来的数值高出好几倍。
好奇去看了下 Cline 的代码,发现它处理 stream 响应时,会把收到的每一个 chunk 中包含的 usage 都累加起来。而 Gemini 的 OpenAI 兼容接口,恰好就是 每个 chunk 都带有 usage 信息。
看着错误的统计和费用估算不舒服,修改了响应输出逻辑,让它只在最后一个 chunk 输出 usage 信息。
Cline 的统计和实际数据对上之后,强迫症表示很满意。