⛰️ Gemini 2.0 重磅袭来, Google 抢跑AI Agents 时代的第一站
2024年12月,在AI历史上注定是难忘的:无论 Open AI带来的风暴多么剧烈, Google 逆风前行,重磅推出Gemini 2.0,揭开了AI Agents时代的新篇章。[1]
Google CEO Pichai 兴奋宣布Gemini 2.0的到来, 相比今年4月推出的1.5 Pro版本, 2.0 实现了飞跃式的进步。 [2]
✨ 主要更新速览:
1. Gemini 2.0 Flash: 超强的多模态能力,极速性能、免费访问
2. Deep Research:强大的研究型Agent(Gemini Advanced 计划提供,现已开放)
3. Project Mariner:新一代的浏览器智能代理技术
4. 搜索升级:集成 Gemini 2.0高级推理能力
🔗即刻访问
gemini.google.com 🤺 Gemini 2.0 Flash的突破
在关键基准测试中, 2.0 Flash 超过了 1.5 Pro, 速度更是后者的两倍;除综合基准、代码能力、数学以及高级推理之外, 值得注意其音视频理解能力的大幅提升。 (详见评论区的图示)
2.0 Flash 还支持多模态输出,包括多语言原生音频输出,并能在本地调用Google 搜索、代码执行等。
短短几个小时内, X上众多开发者已经发现其在多模态上卓越表现:实时视频理解和音频输出,令人惊叹。[3]
🔍 Deep Research :你的超级研究助手
想象你是一名AI 教育者或者创业者,正准备一个AI 技术的演讲,需要深入对比Gemini、ChatGPT和Claude 的差异,以及Sora和其他AI 视频模型的特点。 这些细分领域,至少要数个小时研究时间,还要进行交叉对比。
此时便是发挥 Deep Research 大显身手的时刻:输入问题后,它会创建多步骤研究计划,供修改或批准。一旦批准,它就会自主深入分析网络信息。
Gemini 就会像你一样浏览网页浏览、挖掘信息,并根据所学知识展开新的搜索。 持续重复这一过程,几分钟后,,会自动生成一份综合报告,并导出到Google Doc中。 [4]
Hans 亲测之后, 感受到不小的震撼: 虽然AI Agents 框架和工具已经开始普遍化了, 但是如此触手可及的访问方式还是首次体验。 (效果图见评论区)
这是一个非同寻常的新特性,我将会持续深度评测和分享。
🤖 Project Mariner:重新定义浏览器体验
在Google I/O 大会演示以及随附的Gemini 2.0视频中,我们看到了Astra项目的强大,它作为手机上的超级智能助手令人刮目相看。 而 Project Marinaer 将以浏览器为高地,将我们带入 AI Agent的新天地。
Project Mariner 使用 Gemini 2.0 构建的早期原型, 以浏览器为起点,探索人机交互的未来;它能够理解和推理浏览器屏幕上的信息,包括像素以及文本、代码、图像和表单等,然后通过一个实验性的 Chrome 浏览器插件使用这些信息来为你完成任务。
根据Google 官方的WebVoyager 基准测试,Mariner 作为代理在端到端真实世界的性能评估取得了83.5%的好成绩,展现了单个代理的卓越能力。 [5]
⛰️ 后记:
在诸多的重磅发布之外,Hans意识到这是Google开始抢跑的第一步。 如果说过去一个多月前的Claude Compute Use还是犹抱琵琶半遮面,那么近期微软Agent定制平台到Devin、Replit、Crew AI等新工具的涌现,AI Agent技术的面纱已然揭开。
正如比尔·盖茨早先预言的那样, 「我们才刚刚开始认识AI的潜力。无论它今天有什么限制,都会在不知不觉中悄然消失。」 [6]
Gemini 2.0 的发布,标志着Agentic Era序幕正式拉开。
📶 注释和参考:
[1] 当AI 开始使用人类的工具,这意味着什么
m.okjike.com [2] Gemini 1.5 Pro 正式推出
m.okjike.com [3] 用Gemin 2.0 建构原生音频输出
www.youtube.com [4] Deep Research 能干什么
blog.google [5] Project Mariner的WebVoyager测试
blog.google [6] 比尔·盖茨:人工智能时代已经开始
m.okjike.com