问了官方小伙伴：会开，还没搞完😢

首个针对🦞OpenClaw真实任务的Benchmark来了！！

Z.ai智谱刚刚发布了一个针对OpenClaw的Benchmark：
ZClawBench

ZClawBench是Z.ai基于对OpenClaw大量真实用例的分析后，构建的一个Benchmark

当前OpenClaw的任务类型覆盖安装配置、代码开发、信息搜集、数据分析、内容创作等多元化任务。
用户群体也从早期的开发者扩展到效率办公人群、金融从业者、运维工程师、内容创作者与研究分析人员等。

同时，Skills的使用比例在短时间内从26%快速增长至45%，表明Agent能力正向模块化与技能化的生态方向演进。

基于该基准的评测结果显示，目前最强的Claw模型还是Claude Opus 4.6。

而GLM-5-Turbo在OpenClaw场景中的表现相比GLM-5提升显著，在多项关键任务上整体领先于其他国内多家主流模型。

官方说ZClawBench的题库与测试轨迹已全面公开，但是目前我还找到，谁有链接了踢我一下。