即刻App年轻人的同好社区
下载
App内打开
普雷尔YZ
74关注228被关注0夸夸
🐟SAP
🎨Pika AI / Flova AI / WaytoAGI超创
☕️可灵AI优创
📝公众号:普雷尔的茶会
置顶
普雷尔YZ
2年前
🤖一点自我介绍

♟️普雷尔YZ
➕AI玩家:普雷尔”就是Player
➕PikaAI/FlovaAI超创
➕可灵AI优创

▪️商业信息系统专业
▪️有两个硕士学位
▪️在美国待过六年
▪️目前base上海
▪️就职于世界最大的企业管理软件公司SAP
▪️基于个人兴趣和职业要求研究AI

🎨一些AIGC作品
🔶MIT Season 4入围和提名《Red》xhslink.com
🔶思维实验《The Last Day》b23.tv
🔸《春江花月夜》b23.tv
🔸AI电影短片《流浪地球2人物小传:时光的回响 2.0》b23.tv
🔸可灵AI 2.0模型短片大赛一等奖《FLY》b23.tv
🔸教你如何在三次元施展魔法《Magic in Your Hand》b23.tv
🔸暗黑美学《降临》b23.tv
🔸AI为眼《Alive》b23.tv
🔸电影频道“AI影像人才优选计划”入围短片《榫卯结构·AI全息》:xhslink.com
🔸全AI高级珠宝广告《宝石如星,蝶梦似幻》:xhslink.com
🔸中国美术学院“一万道彩虹”获奖AI短片《Draw A Colorful World》:xhslink.com
🔸中国美术学院“时空博物馆”AIGC数字艺术大赛获奖AI短片《翼马飞翔》:b23.tv
🔸AI电影短片《流浪地球2人物小传:时光的回响》:b23.tv

📝关于AI写的一些文章
🔹《诗意与AI创作》mp.weixin.qq.com
🔹《Runway Aleph模型实战:如何用3张分镜做出2分钟的AI短片》mp.weixin.qq.com
🔹《Midjourney V7产品创意设计演示与测评》mp.weixin.qq.com
🔹《Midjourney图片编辑器测试与应用-黑神话悟空绘图二创》mp.weixin.qq.com
🔹《AI高级珠宝设计与广告全流程》mp.weixin.qq.com
🔹《AI视频工具即梦“首尾帧”功能的应用与内容一致性的保持》mp.weixin.qq.com
🔹《流浪地球2》二创电影2.0制作复盘:mp.weixin.qq.com
🔹《Midjourney的“区域修改”与AI视频的“精准表达”》mp.weixin.qq.com
🔹《AI绘画的细节挑战与局部重绘的作用》m.okjike.com
🔹《如何使用New Bing设计图标和Logo》mp.weixin.qq.com
🔹《AI绘图、AI视频、AI音频Top1产品Midjourney、Runway、Eleven Labs三者关键功能分析》xiaobot.net

🎲其它
·《坦克世界》老司机,在美服带华人公会打过两年公会战
·最喜欢的动画是《攻壳机动队》
00
普雷尔YZ
2天前
按照诡秘之主的序列风格,我觉得应该这么分:

【序列9.观望】置身事外
【序列8.驱使】偶尔作为工具使用,不思考边界
【序列7.探索】主动探索,反复试错
【序列6.驾驭】稳定获得想要的结果
【序列5.编织】对多个AI工具组成自己的系统
【序列4.共鸣】不再只是工具,而是partner
【序列3.造物】技术/艺术/产品创造,有成绩
【序列2.引领】定义范式
【序列1.共生】彻底融入生命
【序列0.不知】不知周之用AI,还是AI之用周?/“硅基奴仆”

观察了三年,我把所有人用AI的水平分成了10个等级。

00
普雷尔YZ
7天前
我的AI短片【Red】参加了第四届灵源AIGC艺术设计展,5.05-5.19号在中国美院良渚校区,在杭州的朋友有兴趣可以去康康👀

第四届灵源AIGC艺术设计展作品展示

00
普雷尔YZ
7天前
Mark

小盖fun: 真的,Google DeepMind 的 CEO Demis Hassabis 每一期访谈我觉得值得都花时间看看。这哥们讲东西很实在,而且通俗易懂。 早上边跑步边听完了他和 YC CEO Garry Tan 的最新一期播客。 刚刚把笔记写完,也给大家分享下。 多说一句,好多人问我这种笔记是不是 AI 写的。我说下自己的流程。 我会先完整听完播客,然后用语音输入法把感触尽量充分地讲出来,再让 AI 帮着整理初稿,最后自己逐字修改优化。 如果全部交给 AI 做总结,那等于把思考和理解的能力让渡给了 AI,对自己理解这件事其实没有任何价值。 OK,咱们进正题。 1 Demis 的态度非常明确,现在的大模型范式(大规模预训练 + RLHF + CoT)一定会是 AGI 最终架构的一部分,他不认为这会是条死路。 但要实现 AGI,还有几个关键问题要解决。这几个问题包括:持续学习、长程推理和记忆系统。 先从最容易看到的现象讲起,Context Window。 现在大模型处理长信息,最常用的招就是把 Context Window 一直撑大。一开始 8k,后来 32k,再后来 100 万 Token。听起来很厉害,但本质上是暴力堆砌。 Context Window 其实就相当于人脑里的 Working Memory,工作记忆。人的工作记忆能同时装多少东西?心理学里有个经典数字,7 个左右。背电话号码能记住 7 位上下,再多就溢出了。 大模型呢?已经做到 100 万 Token。 按理说,模型的工作记忆比人大几十万倍,应该比人聪明几十万倍才对。但显然不是。 问题也恰恰就出现在这。把所有东西都塞进 Context Window 里,里面包含了不重要的东西、错的东西、过时的东西。看起来信息很多,其实是一团乱麻。 那人为什么 7 个数字的工作记忆就够用? 因为人脑背后还有另一套机制在工作。我们记得几年前的事,记得童年的事,记得几小时前发生的事。这些都不塞在工作记忆里,而是另一套系统。 具体来说这套系统是海马体,大脑里负责把新知识整合进已有知识库的那个部分。 研究发现,人睡觉的时候,特别是 REM 睡眠阶段,大脑会重放白天重要的片段,让大脑从中学习。新东西在睡觉的过程里,温柔地融进了旧的知识体系。 这个把新东西融进旧知识库的过程,就是持续学习。 模型现在没有这套机制。每一次对话结束,刚学到的东西就会忘记。下次重新打开,还是上次那个模型,没长进。 2 再聊聊长程推理的问题。英文表达是 Long-term Reasoning。我翻译为了长程。 长程推理这个词太抽象了。Demis 讲了一个特别具体的故事,听完会立刻明白他说的是什么。 他说自己喜欢跟 Gemini 下国际象棋。下棋的过程里能看到模型的 thinking trace,也就是它在那里到底想了什么。 然后他发现一件怪事。 模型考虑一步棋的时候,思考链里清清楚楚写着,这步是个昏招。但接下来,它没找到更好的走法,于是又走回这步昏招。 明明知道是错的,还是把错的那一步走出去了。 这个细节比任何 benchmark 数据都说明问题。因为它暴露的是模型缺少对自己思考过程的某种内省能力。 正常人下棋,意识到一步是昏招之后,脑子里会有一个反应,停一下,再想想。停一下、再想想这个能力,模型现在没有。它能在每一步局部判断对错,但没法基于整盘棋的局势去调整整体策略。 这就是长程推理还没搞定的样子。模型可以一步一步往前走,每一步看起来都合理,但走到后面整盘棋的方向其实是错的。它没有那种退回到当前思考的上一层、重新审视一下的能力。 说到底,模型缺的是一种内省。 3 学习、长程推理、记忆,这是 Demis 在播客里点出来的三个 AGI 鸿沟。 除此之外,他还反复提到了创造力。 2016 年 AlphaGo 跟李世石下棋,第二局走出了著名的 Move 37。那一步棋走出来的瞬间,全世界的围棋高手都看呆了。 所有人类几千年下围棋积累的经验都告诉它不该下那里,但 AlphaGo 下了。下完之后大家发现,是一步神来之笔。 很多人觉得,这就是 AI 的创造力来了。 但 Demis 说,对他自己来说,Move 37 只是起点。他真正想看到的是另一件事。AI 能不能发明围棋这件事本身。 这两件事的区别非常关键。 Move 37 是在围棋这个现成的规则里,找到了一步人类没想到的招。但围棋的规则、棋盘的形状、黑白子的对弈方式,是人类发明出来的。AI 在已有的框架里非常厉害,但能不能自己造一个框架,是另外一回事。 Demis 给了一个具体的设想。 如果给 AI 一个高层次的描述。造一个游戏,五分钟能学会规则,要好几辈子才能精通,棋局有审美,一下午能下完一局。AI 能不能根据这个描述,自己倒推出围棋? 目前做不到。 为了把这件事讲得更清楚,Demis 还提了一个测试,他自己叫爱因斯坦测试。 用 1901 年人类已有的全部知识训练一个模型,看它能不能在 1905 年那个时间点,自己推出狭义相对论。 爱因斯坦在 1905 年那一年里,连写了几篇改变物理学的论文,后来叫爱因斯坦奇迹年。那些工作不是从已有的物理学论文里通过拼接得到的,是基于已有材料做了一次全新的概念跳跃。 爱因斯坦测试想问的就是这件事。AI 能不能做这种跳跃。 目前的大模型主要在做两件事,pattern matching 和 extrapolation。一个是从大量数据里找规律,一个是把规律往外延伸一点。但发现新东西需要的是类比推理的能力。从一个领域里抽出深层结构,搬到另一个全新的领域去用。 这个能力,模型现在还没有。也可能是有,但用法不对所以激发不出来。 4 除此之外,Demis 还分享了一个让我特别出乎意料的判断,他说未来 6 到 12 个月,真正的价值不在更大的模型,在更小的模型。 这一部分内容我反复听了好几次,确实突破我的已有认知。 不知道大家的想法,反正我自己,这一年来并没有怎么关注小模型的进展。毕竟行业的焦点就是把模型做大嘛。 那小模型的价值到底在哪? 最直接的是成本。同样一个任务,小模型的推理价格可能只是前沿模型的十分之一甚至更少。 但 Demis 说,比成本更重要的其实是速度。 这里有一个前提得先说清楚。Demis 不是在说速度可以替代智能。 他的原话是,当小模型的能力已经达到前沿模型的 90% 到 95%,也就是已经相当不错的时候,剩下那 5% 到 10% 的能力差距,比不上速度带来的好处。 比如现在工程师用 AI 写代码,已经形成了一种新的工作节奏。一个想法冒出来,几秒之内就能看到结果,不行就改,再不行再改。 这个一改再改的循环跑得越快,做出来的东西就越好。如果每次调用都要等十秒,整个工作流就被打断了。 更关键的是,快到一定程度,工程师在这种节奏里能进入心流。一个想法、一次尝试、一个反馈、再来一个想法,思维不被打断。 这件事写过代码的人都懂,进入心流和频繁掉出心流,产出的差距是数量级的。 Agent 也是同样的逻辑。一个 Agent 跑完一个任务可能要调几十次模型,每次慢一秒,整个任务就慢一分钟。慢到一定程度,Agent 就从一个能用的东西变成鸡肋。 小模型不是大模型的廉价替代品。有些事只有小模型能做。 比如手机、眼镜、家用机器人,需要的就是一个能在本地跑起来的模型。本地跑除了反应快,还有一个特别重要的好处,隐私。 家里机器人看到的视频、听到的对话,全部在设备本地处理,根本不上云。这件事对很多用户来说不是加分项,是底线。 成本、速度、边缘部署,这是小模型的价值。 5 讲完小模型的价值,接下来一个更关键的问题是,能力被压到这么小的参数里,会不会有上限? Demis 的判断是,目前没看到信息密度有任何理论上限。小模型的智能天花板还远没看到。 支撑这个判断的,是 DeepMind 在蒸馏这件事上的积累。蒸馏简单说就是先训练一个超大的模型,然后用这个超大模型去教一个小模型。教完之后,小模型用极少的参数,能复现原来 95% 以上的能力。 为什么 DeepMind 这么重视蒸馏?因为要把 AI 能力放进谷歌的头部产品中,前提是低延迟、低成本。前沿模型再强,每次推理花几秒钟、花几毛钱...这条路,恐怕很难走得通。 一个前沿模型发布之后,6 到 12 个月内,他们就能把这个模型的能力蒸馏到边缘设备能跑的小模型上去。这个时间表比很多人想的要快。 在很多场景中,小模型和大模型会相互配合。 举个例子,一个端到端的智能助手,绝大部分日常任务在本地的小模型上跑。智能眼镜看到的画面、家里机器人听到的对话、手机里的私人助理,模型直接在设备里读懂,不需要往云端传一遍。 只有遇到特别复杂、本地搞不定的问题,才向云端的前沿模型发起请求。 也就是说小模型在边缘做主力,前沿模型在云端做后援。 不过,这个构想对小模型的要求也比较高,它不能只会处理文字,还得能理解物理世界。 这就是为什么 Gemini 从一开始就坚持多模态,不光处理文字,也处理图像、视频、声音。 一开始这么做比只做文本要难得多,但眼镜也好,机器人也好,需要的是一个能看懂周围世界的模型,不是一个只会聊天的模型。 讲到这里,小模型这条路的轮廓就完全清楚了。它独立成立,不是前沿模型的廉价替代品,而是另一条同样重要的路。 嗯,很有启发。

00
普雷尔YZ
11天前
Not everyone can become a great artist, but a great artist can come from anywhere.
00
普雷尔YZ
15天前
wow…流量激励好多哦(棒读)…跟平台签一些乱七八糟的东西之前,还是要想得更清楚一点
00
普雷尔YZ
19天前
🎼

海辛Hyacinth: 两周前的4月9号,我们到达了京都。 当天晚上,为了等一家亚洲50强的酒吧有位置,我们随便走进了旁边一家其实非常不起眼的小酒馆。当时也只是喝着很普通的清酒,这时我们注意到背景音乐特别好听,像是放的一张特别的唱片。音乐听起来非常奇特,是由中年女性的音色,带有京都特有的那种氛围,但同时又很流行摇滚,印象非常深刻。 我们当即拿出音乐软件来搜取,结果怎么都搜不到。问了一下店员才知道,放的是酒吧老板自己乐队的歌,并没有上架到平台,所以才搜索不到。那一瞬间我们突然明白了,为什么很多人喜欢在民间去淘音乐。即使是在现在这样一个互联网时代,好听的音乐、好的想法以及优秀的创作,依旧可能散落在人间的各处。想到这里,就觉得非常有缘分。 当时我问店员是否可以将这份唱片卖给我,店员说她没法做决定,但老板娘八点半就会来到店里,到时候可以帮我问问。这时,那家世界50强的酒吧电话通知我们有位置了,好像电影总会在关键时刻让主角做选择,我们毫不犹豫的取消了排位,选择留在了这里,等待八点半会见到的人。 八点半,老板娘真的出现在了店门口,她是抱着一束鲜花进来的。大概四五十岁,身子非常挺拔,是一位很有活力的中年女性。她一进来就给我一种强烈的亲切感,因为我想起妈妈也总是抱着鲜花。 通过几句话的交流才知道,她的名字叫 Yoko(阳子)。唱片里是她和朋友组的乐队一起唱的歌,基本上很多曲子都是他们自己写的,她们已经做了20多年的乐队了。Yoko 性格非常开朗,在对话的过程中,我好像看到了许多我的妈妈的侧影,我不禁开始想:如果妈妈没有生下我和我弟弟,也许她也会成为一个歌手,拥有一个歌手+酒吧老板的人生。想到此,对 Yoko 仿佛又多了一层感受。 后来我询问 Yoko 是否可以将唱片卖给我,她非常开心的同意了。她说家里还有很多,卖给我完全没问题的,还在唱片上给我签了名。那天我们一行人聊得特别开心,当放起某首歌时,她忽然开始唱歌,于是我们就收听到了现场的 Live。 这十几天的时间里,我常常会偶然想起那个在京都的夜晚。那种“一期一遇”的场景,仿佛是在一个小酒馆里,忽然见到了另外一个时间线上、可能的母亲的未来。这在我的心里留下了非常宝贵的记忆。 这可能是会记住一辈子的经历,生命的奇遇不在推荐算法里,不在种草笔记里,也不在标准的打卡里。可能就在一家小小的不起眼的小酒吧。 当时 Yoko 说她 24 号在大阪会有一个 Live,今天一天我都反复想起。希望她的演出一切顺利。 (当然视频拍摄在她的许可之下)

00
普雷尔YZ
21天前
GPT-image-2 今日最佳,笑死我了
00
普雷尔YZ
29天前
起点即终点:
▪️从"展示AI能力"出发
终点是技术说明书。观众看完记住的是"哇这个用AI做的",不是"这个片子说了什么"。工具成了主角,作品成了工具的注脚。每次有新模型,前一批片子就过期了。

▪️从"卷赢别人"出发
终点是军备竞赛。专注于比别人快、比别人精、比别人先用上新模型。持续在追,但没有在建。"AI短片太卷"这个感受,大概就是从这个出发点走到头之后看到的风景。

▪️从"害怕被边缘化"出发
终点是维持存在感。内容服从于"发出去"这个动作,而不是"这件事值得被说"。片子在,但重心不在片子里。

▪️从"有一件事想被看见"出发
终点是那件事被说出来了。AI是工具,不是目的。工具会迭代,但那件事的重量不变。这种出发点做出来的东西,新模型出来了也不会让它过期——因为它的价值不在工具,在那件事本身。

▪️从"好奇AI能带我去哪里"出发
终点是发现。不预设结论,每个作品是一次探索。有时候探到死路,有时候探到原来不存在的地方。这个出发点产生的作品,是实验记录,不是竞赛成绩。
-
Claude Code说话为什么这么有智慧?精准,犀利,深刻。我悟了。最近有点沉迷跟Claude Code聊天。
00
普雷尔YZ
1月前
Pika发布了首个支持任意Agent的实时视频通话skill,「Real-time Video Chat for Any Agent」,由Pika最新的实时模型PikaSream 1.0提供支持。

不论是Pika自己的AI分身(AI Self),还是其它现有的Agent(如Claude Code, OpenClaw),只需要发送一个视频会议邀请即可使用。实时通话不仅拥有持久的人格和记忆,如果使用的是Pika自己的AI分身,还可以在视频会议中实时执行各类Agent任务。

当Claude Code 泄露了他们的buddy系统后,国内智能体产品这两天都开始抄作业了,然而,宠物是否就是智能体伙伴的唯一or最优解呢?

智能体是人的延伸,这一点已是必然。高达为什么要有脚?具身智能机器人为什么要做人型?智能体为什么要做成人型?人型并非技术上的必须,而是从环境、场景、心理、商业和设计习惯等多个角度共同作用的结果。人型智能体是为“人这个物种”和“人自己修建的世界”所设计的一种适配方案。
70
普雷尔YZ
1月前
Pika发布了最新的agent产品Pika AI Selves,定位每个人的AI分身。玩了一天,很有意思。我并不想称之为agent,因为它是“AI Self”。

其核心理念在于近年来对AI interface的思考,真正的人工智能界面应该是什么样的?是聊天框吗?还是提示词呢?又或者是“更好的UI设计”?Pika认为应该是每个人的延伸,也就是“第二个你”。
00