即刻App年轻人的同好社区
下载
App内打开
_与九
25关注1被关注0夸夸
_与九
8月前
WAIC后遗症很强,暴增的用户量,促使着赶紧完善更可用的AI
00
_与九
9月前
凡事确实不能急,一急就容易出错
00
_与九
12月前
最近各类AI产品真是井喷式出现。
投入看单兵/小组/大部队各种规模的都在大批量产出;场景有泛有细有超细,有些硬是挤入了一些“红海”去卷;
真是乱花渐欲迷人眼,浅草才能没马蹄
大概这就是AI之春的景象吧
00
_与九
12月前
这个生成水准,迭代到了初步满意的程度; #Pi智能演示文档
00
_与九
1年前
最近新上的一些主题和用户公开的内容,看着确实有点内容质感了。
20
_与九
1年前
跟团队一起打磨了一个AI演示工具,基于过去几年在电商内容的自动化生产的积累 ,和gamma这位先驱,很快完成了工具层面的实现。但是功能-->产品,说实话,还没有想的太清楚,单纯的to C效率工具,还是融合到B端生产力?文章创作、PPT、海报等简图、H5、独立站、交互式文档?甚至更大scope的信息流,看着都是可生长方向?还是让用户进来长长看再说吧。
00
_与九
2年前
内容 x AGI: 从生产、分发、消费几个环节来看,目前市面上的产品算是 8/1/1 甚至 9/0.5/0.5 分布吧?
00
_与九
2年前
给毛孩子“拍”一组写真吧
Ready to release
00
_与九
2年前
实用的基础工具

Szhans: 🚀 被低估的 Gemini Pro 1.5,带来了1M 超长上下文,这意味着什么? 昨天 Open AI 发布的Sora 抢走了几乎全部的聚光灯,而与此同时 Google 正式发布了Gemini Pro 1.5, 这是多模态和AI 丰富应用场景的超级进展。 (Hans 从应用场景上用非技术语言,重新解读这个重大版本的意义;首发于即刻,转载请使用标准分享手段) Gemini Pro 1.5 主要与众不同之处在于其超长的上下文功能(1M tokens),可支持数百万个字节的多模态输入。你将可以用复杂的方式与模型进行交互,可以是整本书、超长文档集、数百个文件中数十万行的代码库、甚至完整的电影、整个播客系列。 📺 你直接扔个视频给它, 它从头看到到尾,还进行「阅读理解」和推理 并非像很多第三方工具或者GPTs那样, 音视频转录成文字,再由AI 在文字内检索。 在随附的演示视频中,你可以看到在测试员将 一个44分钟的黑白电影 《Sherlock Jr.》[1] 扔给了模型,然后,手工输入这样一个Prompts : 「Find the moment when a piece of paper is removed from the person‘s pocket and tell me some key information on it, with time code」 Gemini Pro 1.5开始直接读视频本身,非常快速地找出某人从口袋中取出一张纸的确切时间,并提供侦探级别的分析信息: 识别那张纸片上的详细内容,并展开推理。 更奇妙的在于,你可以使用多模态的Prompt, 给它一张手绘草图,让它找对应的时间戳。 注意演示视频的1:09 秒,你会发现Gemini 在一分钟左右重新读一遍视频,找到了电影画面的确切人位置:15:34 。 (评论区的图a,给出了原理示意图) Amazing ~ 🎉 👩‍💻 为开发场景带来全新的活力,实现全新Coding Copliot 谷歌首席科学家 Jeff Dean 展示了一个案例场景[2]: 把3个Three.js的示例代码,一次性通过txt (10万行代码)文件给到Gemini ,然后输入如下Prompt: 「Show me some code to add a slider to control the speed of the animation. use that kind of GUI the other demos have.」 系统不仅能理解代码,并能根据高层次的人类规范对复杂的演示进行修改, 系统直接给动画代码的运行环境增加一个手动滑块。 实现了从代码到UI成面的修改。 惊艳的表现, So Cool ~(评论区的图b,给出了Gemini实现的编程能力效果) 👨‍🚀 上传多个文件或一个巨型文件, 满足无限深度对话 更大的上下文窗口允许模型接收更多信息,通过上传多个文件使输出更加一致、相关和有用。有了这100 万个令牌的上下文窗口,可以一次性加载超过 70 万字的文本。 Google Deepmind CEO的Demis 在推特上给出了一个有趣的案例玩法 [3] : 他先把一个长达402页的阿波罗11 任务PDF(大概33万Tokens) 上传到 Gemini ,然后提供一个超有趣的靴子草图(图在评论区)和如下的Prompt: 「What moment is this?」 魔法就很快发生, Gemini 神奇回复: 「这是尼尔·阿姆斯特朗的一小步, 人类的一大步。 这是人类第一次登上月球的时刻。」 神奇的推理能力,再次通过这个伟大时刻彰显。(评论区的图c,给出了示意图) ⛰️ 最后, 还是值得重新强调一下: Gemini 1.5 Pro 不仅具有前所未有的上下文处理能力,评估几大核心指标相对1.0 Pro 有了全面的提升,甚至和1.0 Ultra (对标GPT-4的版本)也旗鼓相当。 特别是在文本处理的数学、科学、推理28.9%, 编程有9.2%,视频理解16.9%等的大幅提升[4] 。 (见评论区的图d) 这意味着上面这些应用场景还只是冰山一角, 值得我们在工作流中去重新发现它全面升级,这也是Bard 更新品牌名以来最实在的一个大迭代。 此外, Gemini Pro 似乎真正以全新进化速度疯狂奔跑,正式拉开了顶流大模型之间的新战役—— GPT-4 还能领先多久——终于成为了一个值得认真讨论的新议题。 📖 注释和参考: [1] 巴斯特·基顿 Buster Keaton 所演出的 《小神探夏洛克》是默片时代的经典。影片中最著名的特技镜头之一是基顿跳进一个小手提箱并消失,这个特技是通过一个活板门和演员的巧妙走位完成的。基顿的特技不仅令人印象深刻,而且十分危险;在一个场景中,他的脖子骨折了,直到多年后才意识到。 [2] 把整个Three.js 的3D JavaScript 库给到Gemini的演示全过程 https://www.youtube.com/watch?v=SSnsmqIj1MI [3] Demis Hassabis 展示阿波罗 11 号 PDF的玩法意趣悠长:尼尔的一小步, 也多模态模型的一大步 https://twitter.com/demishassabis/status/1758159027714850971 [4] 官方论文 Gemini 1.5: 解锁多模态的理解力 https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

00