_与九的个人主页 - 即刻App

即刻App年轻人的同好社区

下载

_与九

25关注1被关注0夸夸

_与九

8月前

WAIC后遗症很强，暴增的用户量，促使着赶紧完善更可用的AI

0 00

_与九

9月前

凡事确实不能急，一急就容易出错

0 00

_与九

12月前

最近各类AI产品真是井喷式出现。
投入看单兵/小组/大部队各种规模的都在大批量产出；场景有泛有细有超细，有些硬是挤入了一些“红海”去卷；
真是乱花渐欲迷人眼，浅草才能没马蹄
大概这就是AI之春的景象吧

0 00

_与九

12月前

这个生成水准，迭代到了初步满意的程度； #Pi智能演示文档

0 00

_与九

1年前

最近新上的一些主题和用户公开的内容，看着确实有点内容质感了。

1 20

_与九

1年前

跟团队一起打磨了一个AI演示工具，基于过去几年在电商内容的自动化生产的积累，和gamma这位先驱，很快完成了工具层面的实现。但是功能-->产品，说实话，还没有想的太清楚，单纯的to C效率工具，还是融合到B端生产力？文章创作、PPT、海报等简图、H5、独立站、交互式文档？甚至更大scope的信息流，看着都是可生长方向？还是让用户进来长长看再说吧。

2 00

_与九

2年前

内容 x AGI：从生产、分发、消费几个环节来看，目前市面上的产品算是 8/1/1 甚至 9/0.5/0.5 分布吧？

0 00

_与九

2年前

给毛孩子“拍”一组写真吧
Ready to release

0 00

_与九

2年前

实用的基础工具

Szhans: 🚀 被低估的 Gemini Pro 1.5，带来了1M 超长上下文，这意味着什么？昨天 Open AI 发布的Sora 抢走了几乎全部的聚光灯，而与此同时 Google 正式发布了Gemini Pro 1.5，这是多模态和AI 丰富应用场景的超级进展。（Hans 从应用场景上用非技术语言，重新解读这个重大版本的意义；首发于即刻，转载请使用标准分享手段） Gemini Pro 1.5 主要与众不同之处在于其超长的上下文功能（1M tokens），可支持数百万个字节的多模态输入。你将可以用复杂的方式与模型进行交互，可以是整本书、超长文档集、数百个文件中数十万行的代码库、甚至完整的电影、整个播客系列。 📺 你直接扔个视频给它，它从头看到到尾，还进行「阅读理解」和推理并非像很多第三方工具或者GPTs那样，音视频转录成文字，再由AI 在文字内检索。在随附的演示视频中，你可以看到在测试员将一个44分钟的黑白电影《Sherlock Jr.》[1] 扔给了模型，然后，手工输入这样一个Prompts ：「Find the moment when a piece of paper is removed from the person‘s pocket and tell me some key information on it， with time code」 Gemini Pro 1.5开始直接读视频本身，非常快速地找出某人从口袋中取出一张纸的确切时间，并提供侦探级别的分析信息：识别那张纸片上的详细内容，并展开推理。更奇妙的在于，你可以使用多模态的Prompt，给它一张手绘草图，让它找对应的时间戳。注意演示视频的1:09 秒，你会发现Gemini 在一分钟左右重新读一遍视频，找到了电影画面的确切人位置：15:34 。（评论区的图a，给出了原理示意图） Amazing ～ 🎉 👩‍💻 为开发场景带来全新的活力，实现全新Coding Copliot 谷歌首席科学家 Jeff Dean 展示了一个案例场景[2]：把3个Three.js的示例代码，一次性通过txt （10万行代码）文件给到Gemini ，然后输入如下Prompt：「Show me some code to add a slider to control the speed of the animation. use that kind of GUI the other demos have.」系统不仅能理解代码，并能根据高层次的人类规范对复杂的演示进行修改，系统直接给动画代码的运行环境增加一个手动滑块。实现了从代码到UI成面的修改。惊艳的表现， So Cool ～（评论区的图b，给出了Gemini实现的编程能力效果） 👨‍🚀 上传多个文件或一个巨型文件，满足无限深度对话更大的上下文窗口允许模型接收更多信息，通过上传多个文件使输出更加一致、相关和有用。有了这100 万个令牌的上下文窗口，可以一次性加载超过 70 万字的文本。 Google Deepmind CEO的Demis 在推特上给出了一个有趣的案例玩法 [3] ：他先把一个长达402页的阿波罗11 任务PDF（大概33万Tokens）上传到 Gemini ，然后提供一个超有趣的靴子草图（图在评论区）和如下的Prompt：「What moment is this？」魔法就很快发生， Gemini 神奇回复：「这是尼尔·阿姆斯特朗的一小步，人类的一大步。这是人类第一次登上月球的时刻。」神奇的推理能力，再次通过这个伟大时刻彰显。（评论区的图c，给出了示意图） ⛰️ 最后，还是值得重新强调一下： Gemini 1.5 Pro 不仅具有前所未有的上下文处理能力，评估几大核心指标相对1.0 Pro 有了全面的提升，甚至和1.0 Ultra （对标GPT-4的版本）也旗鼓相当。特别是在文本处理的数学、科学、推理28.9%，编程有9.2%，视频理解16.9%等的大幅提升[4] 。（见评论区的图d）这意味着上面这些应用场景还只是冰山一角，值得我们在工作流中去重新发现它全面升级，这也是Bard 更新品牌名以来最实在的一个大迭代。此外， Gemini Pro 似乎真正以全新进化速度疯狂奔跑，正式拉开了顶流大模型之间的新战役—— GPT-4 还能领先多久——终于成为了一个值得认真讨论的新议题。 📖 注释和参考： [1] 巴斯特·基顿 Buster Keaton 所演出的《小神探夏洛克》是默片时代的经典。影片中最著名的特技镜头之一是基顿跳进一个小手提箱并消失，这个特技是通过一个活板门和演员的巧妙走位完成的。基顿的特技不仅令人印象深刻，而且十分危险；在一个场景中，他的脖子骨折了，直到多年后才意识到。 [2] 把整个Three.js 的3D JavaScript 库给到Gemini的演示全过程 https://www.youtube.com/watch?v=SSnsmqIj1MI [3] Demis Hassabis 展示阿波罗 11 号 PDF的玩法意趣悠长：尼尔的一小步，也多模态模型的一大步 https://twitter.com/demishassabis/status/1758159027714850971 [4] 官方论文 Gemini 1.5: 解锁多模态的理解力 https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

0 00

_与九

2年前

目前限时内测，欢迎大家来玩哈；注册填写邀请码：FFF999，可额外获取使用积分。

Fancinet_Official: Fancinet模版上新丨冬日烟花绚丽绽放 fancinet保持日更频率，为大家带来最新鲜的写真模版上传任意写真模版生成属于自己人脸大模型的写真吧！现在只需动动手指轻松get海量爆款写真和风格化美图～

1 00