即刻App年轻人的同好社区
下载
App内打开
Szhans
2月前
🌉 Claude 迎来了质的飞跃:当AI 开始使用人类工具,这意味着什么

一夜之间,我们似乎就进入了新的时代;隆重介绍来自Claude 新模型带来的全新能力 Computer Use,这个朴素的名字背后有着非凡的能力。

(首发于即刻,未经授权不可转载)

👽 有请 Anthropic 的研究员 Pujaa , 她将为下周来旧金山的朋友做一些准备。 (让我们试着以外星人的视角, 来观察一下 AI 如何操作 [1] 地球上人类的电脑。)

具体来说,是制定一个小型徒步计划,在日出时刻眺望旧金山的金门大桥。

- 首先,向Claude 提出一段再自然不过的Prompt: 「为我们提供一个绝佳的观赏地点,检查开车时间和日出时间,然后设置一个日历事件,让我们有足够的时间到达那里?」

- Claude 会开始「行动」。 在视频的左侧,你看到了它的Action Log。 在屏幕的中间,它在操作你的电脑。 (没错,你也可以称之Agentic Actions)

- Claude 打开浏览器,然后通过Google 搜索 「最佳金门大桥的日出观看点」;它阅读其中一个网页,然后,并找到了对应的位置。

- 然后,它尝试找到这个地址和我家之间的距离,于是,Claude 又打开了地图应用,并Search for me 测算出了距离和行驶路线。

- 紧接着,Claude 再次打开浏览器和本地的Calendar :依次创建了一个Event, 输入了所有细节,从事件名字以及时间和备注。

- 这次AI 创建的日历任务达成~ 😮

🗓 我们看到了什么?

如果只用一句话表达Hans 此刻的震撼: Claude展现出了前所未有的「自主性」,它不只是回答问题,而是实现了某种意义的思考和行动。

它接管了电脑、实时查询互联网,并智能阅读内容后分析网页信息, 并「自作主张」创建好了我的一份重要日程。 换句话说, 它为我们创造了独特的一天。

👀 它是如何做到的这种非凡能力?

LLM 实现了与人类计算机进行协作的新模式, 在一个定制的环境中,Claude可以学习使用我们日常的计算机工具, 就像人类一样那样。

根据Anthropic 目前公布的资料[2] , 在这个新版的Claude 3.5 Sonnet模型, 他们着重训练了这种新特性。 Claude 作为最先进的模型接受训练后,能够使用一些基本的电脑软件,并展开综合运用能力。

结合Claude 的多模态和推理能力,很快它可以将提示转化成一连串的逻辑不走,甚至在遇到障碍时进行自我纠正。

值得强调的是,它会出错!基于OSWorld 评估得分率只有14.9% ,还与人类水平75% 相差甚远(但高于第二名的7.7%)

另外,如何使用Compute Use ?它目前还是测试功能,你可以在官方的Github 项目中了解部署方法。 [3] Anthropic提醒它会带来不同于API功能的独特风险,建议使用虚拟机和Docker来防止系统攻击等潜在风险。

🤖 Compute Use 所揭示的未来

随着大模型在创作、编程和推理能力持续突破,我们还难以完全想象Compute Use 将带来的潜能, 但我们已经意识到它正在掀开一个全新时代。和o1 的慢推理一样, 它将带来深远影响。 [4]

科幻正在照进现实~如果一定要取个名字,有人称之为「代理推理」的新时代。

📖注释和参考:

[1] 当我们说操作这个概念, 你甚至可以关联之前某种熟悉的场景——远程控制电脑。 它标志着某种「自主性」的诞生。

[2] Anthropic 官方博文:开发Compute Use www.anthropic.com

[3] 如何使用Compute Use
github.com

[4] The Agentic Reasoning Era Begins www.sequoiacap.com
02:04
1765

来自圈子

圈子图片

AI探索站

80405人已经加入