即刻App年轻人的同好社区
下载
App内打开
Szhans
9月前
🚀 被低估的 Gemini Pro 1.5,带来了1M 超长上下文,这意味着什么?

昨天 Open AI 发布的Sora 抢走了几乎全部的聚光灯,而与此同时 Google 正式发布了Gemini Pro 1.5, 这是多模态和AI 丰富应用场景的超级进展。

(Hans 从应用场景上用非技术语言,重新解读这个重大版本的意义;首发于即刻,转载请使用标准分享手段)


Gemini Pro 1.5 主要与众不同之处在于其超长的上下文功能(1M tokens),可支持数百万个字节的多模态输入。你将可以用复杂的方式与模型进行交互,可以是整本书、超长文档集、数百个文件中数十万行的代码库、甚至完整的电影、整个播客系列。

📺 你直接扔个视频给它, 它从头看到到尾,还进行「阅读理解」和推理

并非像很多第三方工具或者GPTs那样, 音视频转录成文字,再由AI 在文字内检索。 在随附的演示视频中,你可以看到在测试员将 一个44分钟的黑白电影 《Sherlock Jr.》[1] 扔给了模型,然后,手工输入这样一个Prompts :

「Find the moment when a piece of paper is removed from the person‘s pocket and tell me some key information on it, with time code」

Gemini Pro 1.5开始直接读视频本身,非常快速地找出某人从口袋中取出一张纸的确切时间,并提供侦探级别的分析信息: 识别那张纸片上的详细内容,并展开推理。

更奇妙的在于,你可以使用多模态的Prompt, 给它一张手绘草图,让它找对应的时间戳。 注意演示视频的1:09 秒,你会发现Gemini 在一分钟左右重新读一遍视频,找到了电影画面的确切人位置:15:34 。 (评论区的图a,给出了原理示意图)

Amazing ~ 🎉

👩‍💻 为开发场景带来全新的活力,实现全新Coding Copliot

谷歌首席科学家 Jeff Dean 展示了一个案例场景[2]:

把3个Three.js的示例代码,一次性通过txt (10万行代码)文件给到Gemini ,然后输入如下Prompt:

「Show me some code to add a slider to control the speed of the animation. use that kind of GUI the other demos have.」

系统不仅能理解代码,并能根据高层次的人类规范对复杂的演示进行修改, 系统直接给动画代码的运行环境增加一个手动滑块。 实现了从代码到UI成面的修改。
惊艳的表现, So Cool ~(评论区的图b,给出了Gemini实现的编程能力效果)

👨‍🚀 上传多个文件或一个巨型文件, 满足无限深度对话

更大的上下文窗口允许模型接收更多信息,通过上传多个文件使输出更加一致、相关和有用。有了这100 万个令牌的上下文窗口,可以一次性加载超过 70 万字的文本。

Google Deepmind CEO的Demis 在推特上给出了一个有趣的案例玩法 [3] :

他先把一个长达402页的阿波罗11 任务PDF(大概33万Tokens) 上传到 Gemini ,然后提供一个超有趣的靴子草图(图在评论区)和如下的Prompt:

「What moment is this?」

魔法就很快发生, Gemini 神奇回复:

「这是尼尔·阿姆斯特朗的一小步, 人类的一大步。 这是人类第一次登上月球的时刻。」

神奇的推理能力,再次通过这个伟大时刻彰显。(评论区的图c,给出了示意图)

⛰️ 最后, 还是值得重新强调一下:

Gemini 1.5 Pro 不仅具有前所未有的上下文处理能力,评估几大核心指标相对1.0 Pro 有了全面的提升,甚至和1.0 Ultra (对标GPT-4的版本)也旗鼓相当。

特别是在文本处理的数学、科学、推理28.9%, 编程有9.2%,视频理解16.9%等的大幅提升[4] 。 (见评论区的图d)

这意味着上面这些应用场景还只是冰山一角, 值得我们在工作流中去重新发现它全面升级,这也是Bard 更新品牌名以来最实在的一个大迭代。

此外, Gemini Pro 似乎真正以全新进化速度疯狂奔跑,正式拉开了顶流大模型之间的新战役—— GPT-4 还能领先多久——终于成为了一个值得认真讨论的新议题。

📖 注释和参考:

[1] 巴斯特·基顿 Buster Keaton 所演出的 《小神探夏洛克》是默片时代的经典。影片中最著名的特技镜头之一是基顿跳进一个小手提箱并消失,这个特技是通过一个活板门和演员的巧妙走位完成的。基顿的特技不仅令人印象深刻,而且十分危险;在一个场景中,他的脖子骨折了,直到多年后才意识到。
[2] 把整个Three.js 的3D JavaScript 库给到Gemini的演示全过程 www.youtube.com
[3] Demis Hassabis 展示阿波罗 11 号 PDF的玩法意趣悠长:尼尔的一小步, 也多模态模型的一大步 twitter.com
[4] 官方论文 Gemini 1.5: 解锁多模态的理解力
storage.googleapis.com
01:59
933

来自圈子

圈子图片

AI探索站

77642人已经加入