Anthropic:我们最新的模型,Claude Opus 4.7,现已全面可用。
在高级软件工程方面,Opus 4.7 相较于 Opus 4.6 有了显著的改进,在最困难的任务上取得了特别的提升。用户报告称,他们能够充满信心地将最困难的编码工作——那种以前需要密切监督的工作——移交给 Opus 4.7。Opus 4.7 以严谨和一致的方式处理复杂、长时间运行的任务,对指令给予精确的关注,并在报告回传之前设计方法来验证其自身的输出。
该模型还具有显著提升的视觉能力:它能以更高的分辨率查看图像。在完成专业任务时,它更具品味和创造力,能生成更高质量的界面、幻灯片和文档。并且——尽管它在广泛能力上不如我们最强大的模型 Claude Mythos Preview——但在一系列基准测试中,它展现出了比 Opus 4.6 更好的结果:
上周我们宣布了 Project Glasswing,强调了 AI 模型在网络安全方面的风险——以及益处。我们声明,我们将保持 Claude Mythos Preview 的有限发布,并首先在能力较弱的模型上测试新的网络安全防护措施。Opus 4.7 就是第一个这样的模型:它的网络安全能力不如 Mythos Preview 先进(事实上,在其训练期间,我们尝试了差异化降低这些能力的努力)。我们在发布 Opus 4.7 时配备了安全防护措施,这些措施会自动检测并阻止表明是违禁或高风险网络安全用途的请求。我们从这些安全措施在现实世界部署中学到的经验,将帮助我们朝着广泛发布 Mythos 级别模型的最终目标迈进。
希望出于合法的网络安全目的(例如漏洞研究、渗透测试和红队测试)使用 Opus 4.7 的安全专业人员,受邀加入我们新的网络验证计划(Cyber Verification Program)。
今天,Opus 4.7 已在所有 Claude 产品以及我们的 API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 中提供。定价与 Opus 4.6 保持不变:每百万输入 token 5 美元,每百万输出 token 25 美元。开发者可以通过 Claude API 使用 claude-opus-4-7。
以下是我们对 Opus 4.7 进行早期测试的一些亮点和注意事项:
• 指令遵循。 Opus 4.7 在遵循指令方面有显著的提升。有趣的是,这意味着为早期模型编写的提示词现在有时可能会产生意想不到的结果:以前的模型可能会松散地解释指令或完全跳过某些部分,而 Opus 4.7 则会字面地理解这些指令。用户应相应地重新调整他们的提示词和测试框架。
• 改进的多模态支持。 Opus 4.7 对高分辨率图像具有更好的视觉能力:它可以接受长边达 2,576 像素(约 375 万像素)的图像,是之前 Claude 模型的三倍多。这开启了大量依赖精细视觉细节的多模态用例:阅读密集屏幕截图的计算机使用智能体,从复杂图表中提取数据,以及需要像素级完美参考的工作。
• 现实世界工作。 除了在 Finance Agent(金融智能体)评估中取得最先进的分数外(见上表),我们的内部测试显示,Opus 4.7 是比 Opus 4.6 更高效的金融分析师,能生成严谨的分析和模型,制作更专业的演示文稿,并在各项任务之间实现更紧密的整合。Opus 4.7 在 GDPval-AA 上也处于最先进的水平,这是一个对金融、法律和其他领域中有经济价值的知识工作进行第三方评估的基准。
• 记忆。 Opus 4.7 更擅长使用基于文件系统的记忆。它能够在漫长的、跨多会话的工作中记住重要的笔记,并利用它们推进到新的任务中,因此,新任务需要的前置上下文更少。
下面的图表展示了我们在多个不同领域进行发布前测试的更多评估结果: