读到一段话,感觉很值得开发者思考,无论是做当下热门的 Harness Engineer,还是过去热门的 Multi Agent、Agentic Engineer……
来自 Claude Labs 成员 Prithvi Rajasekaran:
随着模型的不断改进,我们大致可以预期它们能够工作更长时间,并处理更复杂的任务。
在某些情况下,这意味着【围绕模型的脚手架会随着时间的推移而变得不那么重要】,开发者可以等待下一个模型的发布,看某些问题是否会自行解决。
另一方面,模型越来越强大,就越有空间来开发能够完成模型基础能力之外的复杂任务的工具。
考虑到这一点,这项工作中有几个值得继续推进的经验教训。
始终应该对你正在构建的模型进行实验,在实际问题上阅读其执行轨迹,并调整其性能以实现你期望的结果。
在处理更复杂的任务时,有时可以通过分解任务并为问题的各个方面应用专门的代理来获得改进空间。
当新模型发布时,通常的最佳实践是【重新审视测试框架】,剔除那些不再对性能有支撑作用的部分,并添加新的部分以实现之前可能无法达到的更强能力。
来源 Claude Labs 成员 Prithvi Rajasekaran :
www.anthropic.com