Claude 押宝 Agent
3.7 的扩展思考和思维过程可见
让一切可控
用户可以打开或关闭“扩展思维模式”,
引导模型更深入地思考更棘手的问题。
开发人员甚至可以设置“思考预算”,
以精确控制 Claude 在问题上花费的时间。
扩展思维模式不是一个切换到具有单独策略的不同模型的选项。
相反
它允许完全相同的模型给自己更多的时间,
并花费更多的精力来得出答案。
思维过程可见 好处是
1. 一如既往的安全可信
2. 通过对比思考与结论是否相悖
降低模型幻觉(R1 在这点就做的不是很好)
3. 贴近人类思考过程(多角度多分支多重检查),有极大的探索学习价值
缺点是
1. 缺乏个性化表达
与默认输出相比显得更加超然和非个人化
原因是没有对思维过程进行标准的性格特征训练
思维过程中可能包含不正确、误导性或未成熟的想法
2. 忠实度问题(Faithfulness)
无法确定显示的思维过程是否真实反映模型内部的运作
英语语言可能无法完全描述模型的特定行为原因
研究表明模型经常基于未在思维过程中明确讨论的因素做出决策
这使得难以通过监控思维来评估模型的安全性
3. 安全和安保隐患
恶意用户可能利用可见思维过程开发更好的"越狱"策略
模型可能会因为知道思维会被展示而改变思考方式:
产生更难预测的思维方式
主动隐藏某些想法
这些问题在未来更强大的模型版本中会变得更加严重
但得益于 Action Scaling
允许它迭代调用函数、响应环境变化并继续直到开放式任务完成
🌟 超长输入 适配 环境感知
🌟 ToolUse 适配 环境交互
🌟 思考能力 提升 规划能力
🌟 一切可控不过度
最好的力证就是宝可梦测试
无敌
所以是目前最适合的 Agent 底模
也是未来 Agent 底模的起点