🌉 Claude 迎来了质的飞跃:当AI 开始使用人类工具,这意味着什么
一夜之间,我们似乎就进入了新的时代;隆重介绍来自Claude 新模型带来的全新能力 Computer Use,这个朴素的名字背后有着非凡的能力。
(首发于即刻,未经授权不可转载)
👽 有请 Anthropic 的研究员 Pujaa , 她将为下周来旧金山的朋友做一些准备。 (让我们试着以外星人的视角, 来观察一下 AI 如何操作 [1] 地球上人类的电脑。)
具体来说,是制定一个小型徒步计划,在日出时刻眺望旧金山的金门大桥。
- 首先,向Claude 提出一段再自然不过的Prompt: 「为我们提供一个绝佳的观赏地点,检查开车时间和日出时间,然后设置一个日历事件,让我们有足够的时间到达那里?」
- Claude 会开始「行动」。 在视频的左侧,你看到了它的Action Log。 在屏幕的中间,它在操作你的电脑。 (没错,你也可以称之Agentic Actions)
- Claude 打开浏览器,然后通过Google 搜索 「最佳金门大桥的日出观看点」;它阅读其中一个网页,然后,并找到了对应的位置。
- 然后,它尝试找到这个地址和我家之间的距离,于是,Claude 又打开了地图应用,并Search for me 测算出了距离和行驶路线。
- 紧接着,Claude 再次打开浏览器和本地的Calendar :依次创建了一个Event, 输入了所有细节,从事件名字以及时间和备注。
- 这次AI 创建的日历任务达成~ 😮
🗓 我们看到了什么?
如果只用一句话表达Hans 此刻的震撼: Claude展现出了前所未有的「自主性」,它不只是回答问题,而是实现了某种意义的思考和行动。
它接管了电脑、实时查询互联网,并智能阅读内容后分析网页信息, 并「自作主张」创建好了我的一份重要日程。 换句话说, 它为我们创造了独特的一天。
👀 它是如何做到的这种非凡能力?
LLM 实现了与人类计算机进行协作的新模式, 在一个定制的环境中,Claude可以学习使用我们日常的计算机工具, 就像人类一样那样。
根据Anthropic 目前公布的资料[2] , 在这个新版的Claude 3.5 Sonnet模型, 他们着重训练了这种新特性。 Claude 作为最先进的模型接受训练后,能够使用一些基本的电脑软件,并展开综合运用能力。
结合Claude 的多模态和推理能力,很快它可以将提示转化成一连串的逻辑不走,甚至在遇到障碍时进行自我纠正。
值得强调的是,它会出错!基于OSWorld 评估得分率只有14.9% ,还与人类水平75% 相差甚远(但高于第二名的7.7%)
另外,如何使用Compute Use ?它目前还是测试功能,你可以在官方的Github 项目中了解部署方法。 [3] Anthropic提醒它会带来不同于API功能的独特风险,建议使用虚拟机和Docker来防止系统攻击等潜在风险。
🤖 Compute Use 所揭示的未来
随着大模型在创作、编程和推理能力持续突破,我们还难以完全想象Compute Use 将带来的潜能, 但我们已经意识到它正在掀开一个全新时代。和o1 的慢推理一样, 它将带来深远影响。 [4]
科幻正在照进现实~如果一定要取个名字,有人称之为「代理推理」的新时代。
📖注释和参考:
[1] 当我们说操作这个概念, 你甚至可以关联之前某种熟悉的场景——远程控制电脑。 它标志着某种「自主性」的诞生。
[2] Anthropic 官方博文:开发Compute Use
www.anthropic.com [3] 如何使用Compute Use
github.com[4] The Agentic Reasoning Era Begins
www.sequoiacap.com