www.anthropic.comfxtwitter.comAnthropic 发布了其最智能的模型 Claude 3.7 Sonnet,定位为市场首个混合推理模型
1. Claude 3.7 Sonnet 与 Claude Code 发布
• Anthropic 发布了其最新、最智能的模型 Claude 3.7 Sonnet,以及新的代理编码工具 Claude Code。
• Claude 3.7 Sonnet 在编码和前端 Web 开发方面表现出色。Claude Code 允许开发人员从终端直接将工程任务委托给 Claude。
2. Claude 3.7 Sonnet:前沿推理能力
• Claude 3.7 Sonnet 集成了快速响应和深度思考能力,用户可控制模型思考时间。
• 在标准模式下,它是 Claude 3.5 Sonnet 的升级版;在扩展思维模式下,它在数学、编码等任务上表现更佳。
• API 用户可以控制思考预算,权衡速度、成本和答案质量。
3. Claude 3.7 Sonnet 的性能与应用
• 在实际编码任务中表现出色,提升了处理复杂代码库和高级工具使用的能力。
• 在 SWE-bench Verified 和 TAU-bench 等基准测试中达到 SOTA 性能。
• 在指令跟随、多模态能力和代理编码方面表现出色,扩展思维模式在数学和科学方面有显著提升。
4. Claude Code:首个代理编码工具
• 作为有限研究预览版发布,可作为主动协作者搜索、读取、编辑代码,运行测试,提交代码到 GitHub 等。
• 早期测试表明,它可以显著减少开发时间和开销,自动完成通常需要 45 分钟以上手动工作的任务。
• Anthropic 将根据用户反馈不断改进,包括工具调用的可靠性、支持长时间运行的命令等。
5. GitHub 集成与代码库协作
• GitHub 集成现已在所有 Claude 计划中提供,允许开发者将代码仓库直接连接到 Claude。
• Claude 3.7 Sonnet 能够更好地理解个人、工作和开源项目,成为修复错误、开发功能和构建文档的强大伙伴。
6. 责任与安全
• 经过广泛测试和评估,确保符合安全性、可靠性标准。
• 与前代产品相比,Claude 3.7 Sonnet 能更准确区分有害和良性请求,减少了45%的不必要拒绝。
• 发布了系统卡,详细介绍了负责任扩展政策评估,并解释了如何评估漏洞并训练 Claude 来抵御和减轻风险。
7. 未来展望
• Claude 3.7 Sonnet 和 Claude Code 标志着 AI 系统在增强人类能力方面迈出了重要一步。
• 它们能够深入推理、自主工作和有效协作,使我们更接近 AI 丰富和扩展人类能力的未来。
• Anthropic 欢迎用户反馈,并将继续改进和发展模型。