果然代码泄露之后有更大的瓜了。
实际上Mythos在3月26号就Anthropic 因数据缓存配置失误,将模型「Claude Mythos」信息的内部文件和博客草稿公开暴露于网络,外界由此在官方公告前得知其存在。Fortune 报道后,Anthropic 当天即下线该数据缓存。
虽然Mythos现在不能用,但是以后呢,估计也不会藏着掖着。
能不能用先放在一边, 第一时间把官方pdf 报告拿来解读一下。
重点解读了第六章:能力评测。代表着模型未来的能力方向。
直接访问链接解读:
claudeleakage.com这里放几张截图。
最让我注意的两点:
1. 深度检索能力,Mythos Preview用226Ktokens(Opus 4.6的1/4.9)达到更高准确率。也就是token花费少了,效果更好了(图6)。
2. 目前完成度还不够好的能力有:
- 软件工程SWE-bench 多模态测试集,即在 issue 描述中加入截图、设计稿等视觉上下文,测试模型结合图文信息完成工程任务的能力。目前得分59.0%.(图3)
- 智能体搜索:Humanity's Last Exam。2500 道覆盖人类知识边界的多模态题目,号称"最难的 AI 基准"。目前得分64.7%(图7)。
- 电脑自动化:OSWorld。让智能体在真实 Ubuntu 虚拟机中,通过鼠标和键盘完成实际电脑任务:编辑文档、浏览网页、管理文件。以 1080p 分辨率运行,每任务最多 100 步操作。目前得分 79.6%(图8)
官方pdf 报道在这里:
www-cdn.anthropic.com