🚀 被低估的 Gemini Pro 1.5，带来了1M 超

即刻App年轻人的同好社区

下载

Szhans

2年前

🚀 被低估的 Gemini Pro 1.5，带来了1M 超长上下文，这意味着什么？

昨天 Open AI 发布的Sora 抢走了几乎全部的聚光灯，而与此同时 Google 正式发布了Gemini Pro 1.5，这是多模态和AI 丰富应用场景的超级进展。

（Hans 从应用场景上用非技术语言，重新解读这个重大版本的意义；首发于即刻，转载请使用标准分享手段）

Gemini Pro 1.5 主要与众不同之处在于其超长的上下文功能（1M tokens），可支持数百万个字节的多模态输入。你将可以用复杂的方式与模型进行交互，可以是整本书、超长文档集、数百个文件中数十万行的代码库、甚至完整的电影、整个播客系列。

📺 你直接扔个视频给它，它从头看到到尾，还进行「阅读理解」和推理

并非像很多第三方工具或者GPTs那样，音视频转录成文字，再由AI 在文字内检索。在随附的演示视频中，你可以看到在测试员将一个44分钟的黑白电影《Sherlock Jr.》[1] 扔给了模型，然后，手工输入这样一个Prompts ：

「Find the moment when a piece of paper is removed from the person‘s pocket and tell me some key information on it， with time code」

Gemini Pro 1.5开始直接读视频本身，非常快速地找出某人从口袋中取出一张纸的确切时间，并提供侦探级别的分析信息：识别那张纸片上的详细内容，并展开推理。

更奇妙的在于，你可以使用多模态的Prompt，给它一张手绘草图，让它找对应的时间戳。注意演示视频的1:09 秒，你会发现Gemini 在一分钟左右重新读一遍视频，找到了电影画面的确切人位置：15:34 。（评论区的图a，给出了原理示意图）

Amazing ～ 🎉

👩‍💻 为开发场景带来全新的活力，实现全新Coding Copliot

谷歌首席科学家 Jeff Dean 展示了一个案例场景[2]：

把3个Three.js的示例代码，一次性通过txt （10万行代码）文件给到Gemini ，然后输入如下Prompt：

「Show me some code to add a slider to control the speed of the animation. use that kind of GUI the other demos have.」

系统不仅能理解代码，并能根据高层次的人类规范对复杂的演示进行修改，系统直接给动画代码的运行环境增加一个手动滑块。实现了从代码到UI成面的修改。
惊艳的表现， So Cool ～（评论区的图b，给出了Gemini实现的编程能力效果）

👨‍🚀 上传多个文件或一个巨型文件，满足无限深度对话

更大的上下文窗口允许模型接收更多信息，通过上传多个文件使输出更加一致、相关和有用。有了这100 万个令牌的上下文窗口，可以一次性加载超过 70 万字的文本。

Google Deepmind CEO的Demis 在推特上给出了一个有趣的案例玩法 [3] ：

他先把一个长达402页的阿波罗11 任务PDF（大概33万Tokens）上传到 Gemini ，然后提供一个超有趣的靴子草图（图在评论区）和如下的Prompt：

「What moment is this？」

魔法就很快发生， Gemini 神奇回复：

「这是尼尔·阿姆斯特朗的一小步，人类的一大步。这是人类第一次登上月球的时刻。」

神奇的推理能力，再次通过这个伟大时刻彰显。（评论区的图c，给出了示意图）

⛰️ 最后，还是值得重新强调一下：

Gemini 1.5 Pro 不仅具有前所未有的上下文处理能力，评估几大核心指标相对1.0 Pro 有了全面的提升，甚至和1.0 Ultra （对标GPT-4的版本）也旗鼓相当。

特别是在文本处理的数学、科学、推理28.9%，编程有9.2%，视频理解16.9%等的大幅提升[4] 。（见评论区的图d）

这意味着上面这些应用场景还只是冰山一角，值得我们在工作流中去重新发现它全面升级，这也是Bard 更新品牌名以来最实在的一个大迭代。

此外， Gemini Pro 似乎真正以全新进化速度疯狂奔跑，正式拉开了顶流大模型之间的新战役—— GPT-4 还能领先多久——终于成为了一个值得认真讨论的新议题。

📖 注释和参考：

[1] 巴斯特·基顿 Buster Keaton 所演出的《小神探夏洛克》是默片时代的经典。影片中最著名的特技镜头之一是基顿跳进一个小手提箱并消失，这个特技是通过一个活板门和演员的巧妙走位完成的。基顿的特技不仅令人印象深刻，而且十分危险；在一个场景中，他的脖子骨折了，直到多年后才意识到。
[2] 把整个Three.js 的3D JavaScript 库给到Gemini的演示全过程 www.youtube.com
[3] Demis Hassabis 展示阿波罗 11 号 PDF的玩法意趣悠长：尼尔的一小步，也多模态模型的一大步 twitter.com
[4] 官方论文 Gemini 1.5: 解锁多模态的理解力
storage.googleapis.com

01:59

82 934

来自圈子

AI探索站

116053人已经加入