即刻App年轻人的同好社区
下载
App内打开
光斑邮差
47关注10被关注0夸夸
95后AI产品经理
测评实用工具|AI应用探索|偶尔碎碎念
👁追踪前沿动态,把复杂科技讲成人话
☕相信技术改变生活,但人永远是主角
光斑邮差
2天前
微软CEO纳德拉设想了这样一个未来:2万名员工与2000万个智能体协同工作。

这句话的真正意义不在于数字,而在于它抛出了一个全行业都在回避的问题:这2000万个Agent在做什么?做得怎样?值不值得继续投入?

过去一年,整个行业的答案是看Token。

Meta员工为刷Token排行榜疯狂调用模型,30天消耗60万亿Token;Uber四个月烧完全年AI预算;微软因Token成本超过员工成本被迫叫停vibe coding;亚马逊关闭内部排行榜。

就在7月1日,Palantir CEO直接开骂:Token这套模式彻底出了问题。

问题的根源很清楚:Token衡量的是投入不是产出,是成本不是价值。

百度创始人李彦宏在今年5月给出了另一个答案:

DAA(日活智能体数)。不问今天烧了多少Token,而是问每天有多少个Agent在给人干活、完成了任务、交付了结果。

纳德拉的2000万,恰好指向了DAA这类产出侧指标的必要性:当智能体规模达到百万级,你不可能靠看Token账单来管理,你必须知道有多少Agent真正在交付结果。

纳德拉在同一场对话里还谈到了治理:身份、沙盒、审计、可观测性。

DAA和治理,一个看产出一个保安全,共同构成企业规模化Agent的两块基石。

Agent时代不缺工具,缺的是看清价值的能力。而DAA正在帮行业把这个问题问对。
00
光斑邮差
14天前
上世纪80年代电子表格软件开始进入美国办公室,一批会计、文员、打字员发现自己干了十几年的活,一个叫VisiCalc的软件几分钟就能跑完。

有些人学了,有些人没学。

后来经济学家回头看这批人的数据,发现了一个冷到发慌的结论:

没有适应电子表格的那群人,终身收入下降超过五分之一,甚至失业后第一年的死亡率翻了一倍。

不是比喻,是真的死亡率翻倍。

这个数据来自MasterClass CEO David Rogier,他在最近一期和李飞飞的对谈里提到的。

他想说的不是吓人,是一个很朴素的规律:每一轮技术变革都会制造分化,但每一轮的分化方式不一样。

这一轮,长什么样?

1.杠铃的两端
David Rogier给出了一个判断,他管它叫杠铃效应。

未来10年,职场会分化成两种人:
一种是顶级专才,在自己的领域做到前1%,AI追不上他们的深度和独创性。
另一种是高能动性通才,能熟练地把AI工具塞进各种任务里靠的不是某项单一技能,是判断力。

他自己就是后者的活标本,他用Claude Code在周末搭了一整套CEO工作流App,待办清单、写作助手、团队沟通工具,全是自己造的。

以前这些东西要一个小团队干几个月,现在他一个人周末搞定。

他还造了一个叫David-ify的工具,把自己写过的邮件和说过的话喂进去,团队需要用他的口吻写东西时直接调用。

说白了,一个人就是一支队伍。

但真正值得注意的不是两端,是中间。

AI把大多数技能的及格线拉到了80分,以前你是个还不错的文案,能写出七八十分的东西,这就是你的饭碗。

现在任何一个会用LLM的人,花十分钟就能产出差不多水平的内容。

"还行"变成了最危险的位置。

你要么往上钻,钻到那个领域的前1%让AI追不上你。要么横向撑开,像David Rogier那样把自己变成一个能调度多种工具的节点。

中间那个"差不多先生"的舒适区,正在塌。

2.产品经理是标本
李飞飞举了一个她最熟悉的例子:产品经理。

五年前,PM这个岗位的标准工作流是这样的:
你有一个想法,先去找设计师出原型,再找工程师把原型跑起来,然后发给用户收集反馈,综合反馈之后再迭代。

一个完整的循环需要几个月。

现在呢?李飞飞说她看到的年轻PM,很多人自己就能vibe code一个原型出来。不用等设计师,不用等工程师。

AI还能模拟用户行为,帮你跑反馈,整个周期从月压缩到天。

她招PM的时候,不看谁背得出教科书流程,看谁在骑浪。

但这件事不只跟产品经理有关,所有知识工作都在经历同一种压缩:

写方案、做调研、搭原型、跑数据,这些原本分散在不同岗位里的任务,现在一个人加一套工具就能串起来。

一个人干了原来三个岗位的活,不是因为更能卷,是因为工具把岗位之间的边界磨掉了。

敢往外推的人吃到了原来一整条流水线的红利,而守着自己那一小块地的人发现地越来越小。

3.别被"智能成本归零"骗了
聊到这里,李飞飞做了一个很重要的纠偏。

有一种说法在硅谷很流行:智能的成本正在降为零。她对这句话非常警惕。

因为人类智能不只是语言,你知道怎么在三维空间里移动、判断距离,这是空间智能。
你能控制身体完成精细动作,这是物理智能。
你能读懂一个人没说出口的东西,这是情感智能。
还有创造力,创造力从哪来,科学到现在也没搞清楚。

当前的AI主要覆盖的是语言智能这一层。语言是"有损"的,你没法通过阅读学会投篮,你没法用文字学会叠衣服。
李飞飞现在做的World Labs,就是在啃空间智能这块硬骨头。

她说进化花了5亿年才让动物的空间智能成熟,语言智能的进化快得多,空间智能是更古老、更底层的能力。

所以两种误判都很危险:一种是觉得AI马上要替代一切的人,高估了当前技术的覆盖面。另一种则认为AI跟自己没关系的人,低估了语言智能这一层已经在发生的放大效应。

AI不是在替代你,它在放大你。

但如果你站着不动,放大的就是你和别人之间的差距。

4. 能动性是肌肉
说回那两种人,不管你想走专才路线还是通才路线,底层都需要同一样东西。

李飞飞给了它一个名字:Agency能动性。

"创业者"这个词在硅谷被窄化了,好像只有注册一家Delaware公司才叫创业者。

她不同意这个观点,她觉得创业者就是能动性的同义词。

你可以是一个医生,一个K12老师,一个会计,只要你敢主动驾驭工具、推动变化,你就是创业者。

David Rogier把能动性拆得更具体,他说能动性包括敢冒险、能从失败里学东西、有韧性、有好奇心。

但最反直觉的一条是:能动性几乎是对"寻求赞美"这种社会惯性的反叛。

他讲了自己创办MasterClass的经历,当时所有人都说这是一个不可能的想法,这是一个烂主意。对于一个从小被训练成追求表扬的人来说,这种否定很难扛。

但后来他想通了一件事:如果所有人都觉得你的想法好,那它大概率不是个好想法。

能动性不是天赋,是可以练的。

David Rogier自己有一个微操叫"1.5天原则":

任何任务如果在待办清单上躺了超过36个小时,就必须三选一:现在就做,删掉,转给别人。不允许第四个选项出现。

这个小规则逼着你对每一件事做决定,而不是让事情自然淤积,能动性就是从这种日常的小肌肉开始练的。

5
对谈快结束的时候,主持人问李飞飞:对那些想接触AI但不知道从哪开始的年纪稍长的普通人,你有什么建议?

她说了一段很朴素的话:
找一个你信任的年轻人,25岁以下的,你的孩子、侄子、学生都行。他们几乎都在用AI了,让他们带你用一次。不用担心自己不懂计算机,不用纠结该打开哪个App,就这个周末让他拉着你走一遍。

你会发现这个东西没那么吓人。

如果你用完之后觉得它有问题、不完美,那更好。

因为你知道问题在哪了,你的声音就有了重量。
01
光斑邮差
1月前
用AI查信息这件事,我最近有个新体感。
同一个问题,换一个搜索层,答案会完全不一样。
之前一直以为AI给的信息差,是模型的问题。后来才发现,模型能给你什么,取决于它能搜到什么。金融行情、安全数据库、法律判例这些,根本不在公开网页上,通用搜索够不到,AI自然也看不见。
它不是在骗你,是它本来就没看到。
AnySearch解决的就是这一层。它把这些垂直数据源统一接进来,Agent发一个查询,自动路由到对应的库,返回结构化结果,直接可用。不用手动指定去哪搜,也不用自己清洗格式。
我实测了一个安全漏洞查询,同一个问题,普通搜索给的是博客二手报道,AnySearch走原始数据库,多了双评分体系、完整攻击路径、三条缓解措施。
差距不在模型,在数据入口。
00
光斑邮差
2月前
“人还是会拼命,还是会有压力,还是会不快乐。”

Sam Altman在近期的一档访谈中提出了这样的观点,但说到这句话的时候他停了一下。

这句话的背景是:AI即将创造人类历史上从未有过的物质富足。

我听到这里,有点愣。一个正在把这件事变成现实的人,对未来给出的判断不是"从此过上了幸福的生活",而是人还是会拼,还是会苦,还是会不满足。

幸运还是不幸,取决于你怎么看。

1
人类管理稀缺,已经管了几千年了。从部落分猎物到发明货币,到今天打工人盯着KPI,底层逻辑从来没变过:

资源有限所以要竞争,竞争决定分配。

这条链子是真实的,几千年来它让人类持续往前跑,停不下来也不敢停。

在此之前Sam在另一个场合说他脑子里一直转着一句话:几千年来人类学会了如何管理稀缺,现在要迅速学会相反的事,管理富足。

他坦白说这件事让他困惑,"如果有个简单的共识答案,我们早就做了,所以我不认为任何人知道该怎么办。"

造出ChatGPT的人,公开说他不知道该怎么办。

现在想想这条链子,AI正在把它的前几个环节悄悄拆掉。

当一个系统可以在30秒内完成你原本要做3小时的事,不干有的是人干吃这个几千年来最稳定的驱动力,真的开始松动了。
链子松了但人还挂在上面,只不过绝大多数人还没想好要不要跳下去。

2
不用等到AI消灭所有工作那天,这个感觉现在已经有人在经历了。

那些靠AI把效率拉高了好几倍的人,在突然发现自己有大量空余时间的时候并不知道应该拿来干什么。

任务提前完成,下午两点就没事干了,刷了一会儿手机,反而觉得更空洞。

我自己也有过这种下午,用AI压缩完工作之后,坐在那里开始有点无所事事,甚至要假装自己还在忙。

不是累,是不知道这个空出来的时间该填什么,好像从来没练习过不为了完成任务而存在这件事。

Sam提到人类对成就的渴望、对竞争的渴望、想要对彼此有用的渴望,这些东西不会因为不缺钱就消失。

"我们想要更多,标准就会一直在涨,想推进新事物,就会发现新边界。"

这不是稀缺逼出来的,是人本来就这样。

当AI把人类顶尖棋手碾压之后,象棋比赛没有消失,参与人数反而还在涨。"战胜所有人类"这个目标已经悄悄换了意义,因为真正的天花板不再是人了。

竞争的靶子换掉了,但人还是在下棋,还是很认真。

3
这里有一层更隐蔽的东西。

很多人现在拼命,不是因为喜欢而是因为停下来会恐慌。

这两件事看起来像一回事,其实完全不同。

工作塞满了时间,也塞满了"我有用"的感觉。很多时候人需要觉得自己有用,需要被需要,这个需求好像比物质需求更底层。

稀缺经济恰好给每个人都提供了一套现成的证明:你的收入、你的职位、你完成任务的速度,都是可以量化的,可以和别人比的,比赢了就是有用。

但当AI让这些东西的获取变得更容易,这套证明就开始变轻了。

不是工作消失了,而是因为完成工作而获得的价值感开始缩水了。

这是一个比失业更隐蔽的问题,失业是立即能够感受到的,但价值感缩水是慢慢渗进来的。等你意识到它的存在,可能已经不知道从哪里找补了。

4
马拉松这项运动,除了头几名其他人跑完了什么都没有,甚至还可能会面对一些潜在身体风险。但每年还是有几百万人去跑,跑得很痛苦,但跑完很满足。

Sam那句人还是会拼命,还是会有压力,还是会不快乐,我现在觉得他说的不是坏消息。他想表达的是人对有意义的困难的需求,AI拆不掉,只是会改变它的形式。

被迫承受困难和主动选择困难,对一个人来说是完全不同的两种活法。

AI正在把选择权还给你,但它没有告诉你该选什么。
00
光斑邮差
2月前
一周前,DeepSeek把V4-Pro推上了Hugging Face。

依旧是媲美头部模型的性能,极致的性价比。训练全程跑在华为芯片上,底层代码绕开了CUDA用一套叫TileLang的新语言写的。

市场等着英伟达崩,英伟达当天发了一篇技术博客。

内容是展示V4-Pro在自家Blackwell GB200上每秒跑出150个token以上的成绩。

言下之意只有一个:你的模型在我的硬件上跑得很好,我们不是对手,我是你的平台。

一个被挑战的人,在挑战者发布的同一天出来给对方背书。

这个动作,黄仁勋做得行云流水,像是排练过很多次。

1
2026年1月,他在老朋友Jodi Shelton的播客里说过一句话:

空椅子好过坐错人,所以我从不着急,公司会继续向前走,不管缺的是CEO还是任何VP,英伟达都会继续向前走。

但你拿这句话对照他面对DeepSeek的每一步动作,会发现逻辑是同一套。

与其用错误的方式填满每一个空缺,不如等到正确的时机再出手。

这不是不急,是另一种急法。

但这个哲学有一个隐含的前提:你得等得起。

在传统行业,等得起是优势。在AI这个行业每隔几个月就会出现一个让所有人重新定义领先的东西,等时机这件事本身,也许就是最大的风险。

黄仁勋知不知道这一点?他当然知道,但他没说。

2
要理解黄仁勋为什么能做到这种从容,得先搞清楚英伟达真正卖的是什么。

很多人以为答案是GPU,只对了一半。

英伟达真正卖的是一套让芯片变得好用的完整体系:
芯片是硬件,CUDA是软件,配套的库、工具链、开发者社区是生态,三者缺一不可。

CUDA从2006年开始积累,全球的AI研究员、工程师、学生,第一套GPU编程框架几乎都是CUDA。

这套东西嵌进了几百万开发者的肌肉记忆,是无数开源项目的底层依赖。

想换掉它,不只是换一个工具,是要从头再来。

黄仁勋建的不是一堵墙,是一条河。墙可以翻,河的水系一旦形成,改道要花几十年。

但他也比任何人都清楚,河道是会被改的,只是需要时间。

3
2025年春节期间DeepSeek R1横空出世,英伟达市值单日蒸发近600亿美元,创下美股历史单日最大跌幅纪录。

市场的逻辑是:如果用降配版芯片也能训出顶级模型,那堆最好的卡还有意义吗?

黄仁勋没有慌,出来说了一句"DeepSeek令人印象深刻",然后回去继续接订单。
那一年英伟达数据中心收入创下历史纪录,但他认真看了那篇技术报告。

R1最让他在意的不是成本低,是那个团队在算法层面做的事。如何用更少的算力,做同样的事。

这个方向如果持续演进意味着什么,黄仁勋心里有数。

算力需求的天花板,是英伟达增长逻辑的地基。

地基有人在挖,他需要提前布好下一步棋。

4
今年1月的CES,黄仁勋发布了Vera Rubin平台。推理token成本相比Blackwell降低10倍,训练相同规模MoE模型所需GPU数量减少4倍。

还专门发布了Rubin CPX,为百万token超长上下文设计,单机架塞进8 ExaFLOPS算力和100TB内存。

推理成本,MoE,超长上下文。

这三个方向正好是DeepSeek系列模型主打的三个方向。

这不是巧合,是黄仁勋在用英伟达自己的节奏,回应对手定义的竞争维度。

挑战者定义了效率竞争是新主战场,领导者接受了这个维度,还顺手把赛道上的基础设施换成自己的标准。

GTC 2026上,黄仁勋预期截至2027年仅Blackwell和Rubin芯片的收入将达到至少1万亿美元。

压缩单卡价值,同时预期万亿收入。能同时成立靠的是另一个维度上的扩张,单位效率的提升带来了更多人用得起,同时市场的总需求还在爆炸式增长。

5
但有一件事,Rubin解决不了。

V4发布当天DeepSeek同步发布了TileKernels,一个用Python写的开源GPU算子库。

这是基于TileLang这门领域专用语言,不写任何CUDA C++代码,跑出接近硬件理论极限的性能。

这件事的性质,用一个类比来说最清楚。
你家附近有一条收费高速开了二十年,所有人都习惯走这条路。现在有人在旁边修了一条新路还不收费,理论上能通向任何地方,但路面还没完全铺好,配套的加油站和服务区还很少。

大多数司机今天不会换路,因为切换成本太高习惯太深。

但这条新路存在本身,就已经改变了那条收费高速的定价权。

TileLang现在就是这条新路。

它试图做的事情,说白了是把硬件变成可替换的零件。

过去开发者写AI代码,必须按CUDA的语法来,因为整个工具链都绑在英伟达上。

TileLang想在这层绑定之上建一套通用语言,让开发者不再被锁死在某一家芯片厂商的生态里,换芯片不用重新适配一遍。

DeepSeek已经用它重写了V4的核心算子并且开源,任何人都可以拿去用。

从原型到生产环境,这一步是最难的它已经过了。

但这条路距离真正“通车”还需要时间,生态切换的惰性比任何技术都顽固,几百万开发者的肌肉记忆不会因为一个工具的出现就在一夜之间改变。

TileLang的方向是对的,可行性还需要市场来验证。

老黄比任何人都清楚这一点,真正的威胁从来不是另一块更好的芯片,而是让芯片变得无所谓的那一层软件。

这个威胁现在还在早期,但它已经有了真实的形状。

6
V4发布后英伟达发了那篇技术博客,展示V4-Pro在Blackwell上的跑分。

这个动作做得很漂亮,它把一个潜在的对立关系重新定义成了共生关系。

DeepSeek做了一个好模型,英伟达提供了跑这个模型的最好硬件。

2026年1月老黄在Jodi Shelton的播客里说,空椅子好过坐错人,所以我从不着急,公司会继续向前走。

在访谈里面的语境下说的是招聘,但拿来对照他面对DeepSeek的方式,逻辑是同一套。

与其用错误的方式填满每一个空缺,不如等到正确的时机再出手。

英伟达从不急着辟谣,从不急着开发布会反击,但每一次出手都精准落在对手最在意的地方。

DeepSeek定义了效率竞争,Rubin跟上来主打推理成本。
DeepSeek押注MoE架构,Rubin专门为MoE优化训练效率。

对手在挖地基,他在地基旁边建更高的楼。

他做GPU的时候,所有人说图形芯片没有计算未来。他押AI的时候,AI还是个学术词汇。

空椅子哲学,说到底是一种对自己判断力的信任。

这种信任在过去三十年里被反复验证,每次看起来像在等待的时候其实都是在精准布局。

但任何战略都有它的适用边界,在传统竞争里等得起是优势。

但在AI这个行业,也许有时候快速反应本身就是答案,等时机这件事代价可能比以前贵得多。

黄仁勋知不知道这一点?肯定是知道,只是他没说。

7
黄仁勋的路线图上,Rubin之后是Feynman架构。

年度更新的节奏,整个芯片行业找不到第二家能做到的公司。

但速度是战术,不是答案。

计算在变便宜,算法在补偿硬件,TileLang这条路如果真的走通,芯片品牌这件事会变得不那么重要。

英伟达卖的那套东西,还值不值原来那个价。没有人能够在当下给出答案,包括老黄自己。

但他说过,空椅子好过坐错人,他从不着急,公司会继续向前走。

与其用错误的方式填满每一个空缺,不如保持清醒等待正确的时机。

黄仁勋用三十年建了一条全世界最深的护城河,但他也清楚护城河会出现决口。只是他比所有人都更清楚,什么时候该补,用什么补。
00
光斑邮差
2月前
GitHub上有个Skill最近挺火的叫academic-research-skills,4个核心技能覆盖从查文献到文章定稿的全流程。

我看到它的时候第一反应是:又一个帮你写内容的AI工具?

看完之后发现不是,它做的事比写文章有意思得多。

导师周五下午发消息,文献综述太薄了补20篇下周组会。

你打开PubMed,8000条结果,翻着翻着脑子就开始捣糨糊了。

查文献、筛文献、整理引用、检查DOI、调排版每一步都不难,但加起来吃掉了你科研时间的一大半。

这个项目想干掉的就是这些苦力活。

README里有句话我觉得说到点上了:AI是你的副驾驶,不是驾驶员。你负责想问题,AI负责跑腿。

还有一句更实在的:这个工具不帮你隐藏你用了AI,它帮你写得更好。

跟那些降重工具完全不是一回事,降重工具给你干坏事,这个帮你干活。

1
实测下来45个代理中,我觉得文献综述这块最硬。

deep-research技能,13个AI代理,你告诉它你的方向,它不直接吐综述。

它先问你研究问题具体是什么?关注哪个层面?读过哪些文献了?方法论偏好是什么?

这是苏格拉底对话模式,先逼你把问题想清楚,想不清楚不推进下一步。

很多学生党写不出好综述,根本原因不是综述能力差,而是研究问题本身没想清楚。

你都不知道自己要问什么,AI帮你读再多文献也是白忙。

问清楚之后,它按PRISMA标准跑系统性文献回顾。
识别、筛选、纳入、排除,每一步有记录。

13个代理各管一摊,各自分工明确互不干扰。

不是一个AI读完所有论文写个总结,是一个团队跑一套流程。

有7种模式。赶时间跑quick,看个大方向。时间充裕跑full,做完整综述。还有socratic引导式、systematic-review系统性综述、fact-check事实核查这几种。

一次full模式大概烧几万到十几万Token,成本4到6美元。建议先跑quick确认方向对了再上full。

2
academic-paper是负责写作的技能,12个代理。

这里面最让我眼前一亮的是Style Calibration,你把过去发的文章丢给它,它会分析你的风格,之后帮你写的内容自动匹配你的风格。

不是去AI味,是让AI写出来的东西像你写的。

你有你的文风,每个人的不尽相同,Style Calibration学的就是这些,每个人都能差异化。

但你至少要喂2到3篇你过去的文章,并且越多越好。

它还带了一个Writing Quality Check,43项替换表,标记21类AI痕迹。

过渡句太多、It is worth noting that这种填充句太明显、被动语态用得太频繁,这些全都会被标出来。

它不是帮你降重,是帮你自检。

输出格式也省心,Markdown、DOCX、LaTeX一键切换。

3
academic-paper-reviewer,7个AI代理,模拟同行评审。

内容写完了,提交之前先让7个代理审一遍。
7个代理分工不同,每个都有各自单独的审查区块,每个独立打分,汇总意见。

重点是这个Devil's Advocate模式,一个专门唱反调的代理。

你文章里的每个核心论点它都会攻击,找里面的逻辑漏洞。

而且它不轻易让步,你的反驳要达到4分以上(满分5分)它才接受,否则继续攻击。

4
academic-pipeline是10阶段编排器,把前面三个技能串成一条完整流水线。

它有两个强制检查点,Stage 2.5和Stage 4.5,硬性门禁,跳不过去。

AI自动检查引用是否真实、数据是否一致、论证是否自洽。同时跑一个AI研究失败模式清单,查7种常见问题:
把bug当成发现、幻觉结果、走捷径、方法论伪造、思维锁定。

这个设计的逻辑很清楚,AI帮你干活,最怕的不是慢,是它错了你没发现。

强制检查点就是逼你在关键节点停下来看一眼。

学生党先从socratic模式开始,把研究问题想清楚再往下走。

繁体中文和英文触发词最稳定,简体中文意图检测也能用,但有些触发词可能需要切英文。

导师让你一周梳理40篇文献,你可以自己一篇一篇读,也可以让45个代理先把苦力活干了,然后你拿着一份结构化的文献梳理坐下来想:

这些文章拼在一起到底说了什么?哪些问题没人回答过?你能不能回答?

后者才是你该花时间的地方。

AI不能替你想,但它能把你从搬砖里捞出来,让你有时间去想。
00
光斑邮差
2月前
你可能用过这个流程:打开AI软件,输入「帮我写一份XXX功能的PRD」,等三分钟,拿到一份格式工整的文档,转发给老板。

然后老板回两个字:重写。

给大家推荐一个项目叫pm-skills,专门避免被打回重写这件事。

作者Paweł Huryn是Product Compass Newsletter创始人,40万订阅者,前CPO。

他把Teresa Torres、Marty Cagan、Alberto Savoia等人的产品方法论打包成65个AI技能,覆盖产品全生命周期。

填空机器的困境

为什么会被打回来重写?
因为AI给你的那份东西本质上是一份功能说明书,说的内容全都是「有什么功能、怎么操作」描。

但你的老板想要的东西是:我们要解决的问题是什么?怎么知道用户真的有这个问题?成功的标准是什么?如果上线后数据不好,接下来怎么办?

这四个问题,AI没有主动问你。

AI做的事情本质上是往模板里填空,你说「帮我写PRD,包含成功指标」,它给你「提升用户满意度和留存率」。给你说一堆正确的“废话”。

功能说明书和PRD之间的差距不在格式,在于为什么做。

功能说明书描述做什么:用户可以上传头像、修改昵称、绑定手机号。

PRD描述为什么做、怎么验证做对了:发现问题、提出解决方案、验证方案、如果没有达标使用方案B。

这中间的差距,就是产品思维。

八个插件,一条产品工作流

65个技能按8个插件分类:
Discovery处理产品发现,包括头脑风暴、假设识别、实验设计、用户访谈脚本以及Teresa Torres的机会解方案树;
Strategy处理商业模型画布、Lean Canvas、竞品分析、波特五力和Ansoff矩阵这类战略框架;
Market Research负责竞品深度分析和用户画像;
Analytics处理North Star指标定义和A/B测试规划;
Marketing Growth管营销创意和产品定位;
GTM负责上市计划和渠道选择;
Execution处理PRD、OKR、路线图、Sprint计划、用户故事;
Toolkit是基础工具,简历审查、NDA起草、隐私政策都在里面。

一次真实测试
我用/discover命令做了一次产品发现,目标是「减少自助注册用户的onboarding流失」。

AI没有直接给我一份文档,它先问了五个问题:
目标用户是谁?
现在的流程完成率是多少?
在哪一步流失最严重?
有没有做过用户访谈?
有没有竞品的参考数据?

我回答之后它帮我建了一棵机会解方案树,从「减少流失」这个目标出发,拆出三个机会:
注册步骤太多、没有进度提示、第一个价值体验离注册太远。
每个机会下面推导出两到三个解方案,每个解方案配一个最小化实验设计。

然后它说:推荐下一步,strategy,用Lean Canvas评估这些方案的商业可行性。

我接着跑,/strategy基于刚才发现的结果把最有潜力的方案放进Lean Canvas的9个板块里评估,做完之后推荐/write-prd。

这次写出来的PRD和之前直接让AI写的完全不同:有明确的问题定义、量化的成功指标(、有假设声明(来自机会解方案树)以及回滚方案。

技能之间是串联的,每一步完成后会推荐下一步该做什么。/discover推荐/strategy,/strategy推荐/write-prd,/write-prd推荐/plan-launch。整个PM工作流可以一条线跑通。

这就是它和「AI帮你写文档」之间最本质的区别:它不是帮你写,是帮你想。文档只是思考过程的产出物。

怎么用才不浪费

有几点使用经验值得提前说清楚。

新手PM最容易犯的错误是直接跑/write-prd,产品发现是所有后续工作的地基,跳过发现直接写PRD,写出来的还是那种老板一眼看出来的文档,只不过格式更好看了一点。

从/discover开始回答AI的每一个问题,这个过程本身就是在做产品思考。

8个插件不需要一次全装,产品早期装Discovery加Strategy就够了,它覆盖从「我有一个想法」到「这个想法是否值得做」的验证路径。

进入开发阶段再加Execution,准备上线的时候加GTM和Marketing Growth。

有一条规律几乎每次都成立:你提供的上下文质量决定了输出的质量。

你越诚实地回答AI的提问,特别是「你怎么知道这是一个真实问题而不是你的假设」这类问题,它给你的东西越有价值。

你敷衍它,它也敷衍你。

如果你是创业者,最值得先装的三个插件是Discovery、Strategy、GTM,覆盖了从「我有一个想法」到「我怎么把它卖出去」的完整路径。

Marty Cagan在《启示录》里说过,大多数产品团队的问题不是执行力,是根本就没有搞清楚要解决什么问题。

AI工具把执行变得更快了,但它改变不了「没想清楚问题就开始写文档」这件事情本身。

pm-skills解决的其实是这个问题:在你动手写任何东西之前,先逼你把问题想清楚。
00
光斑邮差
2月前
年初就在盼着去年封神的DeepSeek,今天V4它来了!

1
先说跟的一个数字:100万。

V3.2的上下文窗口是128K token,4直接拉到100万翻了将近8倍。

100万token大约等于80万字中文,拿来做参照:刘慈欣的《三体》三部曲加起来大概88万字,一次性丢进去,还剩点余量。

这改变的不是「能读多长的文章」,而是工作方式。

以前用大模型处理长文档,核心工作量是「怎么把大象分成小块装进冰箱」,现在冰箱变成了仓库。

但仓库大不等于找东西快 DeepSeek自己公布的数据显示,V4在100万token长度下的检索准确率MRCR 1M拿了83.5分,Claude Opus 4.6是92.9。能装了,找得准不准还有差距。

同样的显卡和显存,能扛的请求量翻了好几倍。

2
DeepSeek一直在编程这条线上死磕,V4交出了目前最好的答卷。

Codeforces竞赛评分3206而GPT-5.4是3168,这是开源模型第一次在竞赛级编程上站到了闭源模型前面。

SWE-bench Verified修真实GitHub issue的测试V4-Pro拿了80.6,Claude Opus 4.6是80.8,两者咬在一起。

这些数字放在一年前,任何一个开源模型都摸不到边。

但V4的短板也很明显:
HLE测试和世界知识检索SimpleQA这两项V4分别只拿37.7和57.9。

论写代码它是尖子生,但百科知识这方面它还得补课。

如果说Claude是全科学霸,V4更像是理科偏科生,数学和编程拿满分,历史地理还在及格线晃。

3
V4这次上了两个模型,Pro和Flash。

V4-Pro1.6万亿总参数,每次推理激活49B,适合干复杂推理的任务。产品端叫「专家模式」,支持深度思考和搜索。

V4-Flash284B总参数,激活13B轻快便宜。产品端叫「快速模式」,日常聊天和简单任务用这个。

API价格是V4最有杀伤力的部分。

Pro输出token $3.48/百万。Flash输出token $0.28/百万。Claude Opus 4.6的输出价格是$75/百万,Pro便宜了20倍,Flash便宜了260倍。

如果你在跑批量任务、做自动化流程、搞内容生产线,这个价差会直接砍掉你的成本。

论性能跟闭源第一梯队咬在一起,论价格差了一到两个数量级。

这是DeepSeek一贯的打法:用价格把护城河里的水抽干。

4
V4从R1之后隔了这么久,不是因为模型没训好。

根据多家媒体报道,DeepSeek在过去一年多里做了一件极其吃力的事:

把整个技术底座从英伟达CUDA框架迁移到华为昇腾CANN架构,V4完全运行在华为芯片上。

DeepSeek没给英伟达和AMD提前适配的机会,早期访问权限只开放给了华为和寒武纪。

最后的结果就是V4在昇腾上的推理速度比初期版本提升了35倍,部署成本大约是英伟达方案的三分之一。

黄仁勋在最近的采访里直说了,如果前沿模型能在国产芯片上跑出竞争力,英伟达的生态护城河会被动摇。

对普通用户来说,你打开DeepSeek网页或者调API,感知不到背后跑的是哪家芯片。

但这件事的长期影响比V4模型本身可能更大:

它给AI产业链打了一个样板,证明万亿参数模型可以不依赖英伟达。

5
V4选在GPT-5.5发布的同一天上线。一个开源免费,一个闭源付费。同日发布,新闻周期对半分。

V4的官方措辞很克制,叫Preview预览版。

如果说R1是DeepSeek对全世界喊的那一嗓子,V4更像是它低着头做完一道难题之后,把卷子默默翻过来放在桌上。

这份试卷的名字的名字叫:不用英伟达,也能跑万亿参数。

至于考试成绩单,阅卷人还在路上。
00
光斑邮差
3月前
Demis Hassabis,2024年诺贝尔化学奖得主在近期的一次访谈中对AI的现状表达了观点:

AI最可怕的不是终结者,是两件正在发生的事。

第一件是坏人用AI做坏事。伪造视频、假新闻,黑客用AI写恶意代码的效率是以前的几十倍。

第二件是AI目标错位。它不懂常识,不懂隐含约束,是知道完成你布置的任务,不管后果。AI越强,这种错位的代价越大。

这就是为什么他做的不只是让AI变强,还要让AI理解人类真正的想要的是什么。

他给出了4条建议:去用它、保持好奇、参与讨论和保持人性。

AI越强大,人类的判断力越重要。
00
光斑邮差
3月前
Caveman(19K Star,HN 883分第一)做了一件很搞笑的事,让AI像原始人一样说话。

同样的问题:Bug在auth中间件。Token过期检查用 < 应该用 <=。修复:技术信息一字没少,废话全砍,Token省75%。

三个强度:lite砍废话但保持完整句子,full默认原始人模式,ultra极限压缩。

还有文言文模式组件重渲染乃因每次渲染皆创新对象引用,字符砍80-90%。

还有Compress功能把你的CLAUDE.md也压缩成原始人风格,输入Token再省46%。

遇到安全警告和不可逆操作,自动退出原始人模式用正常语言说清楚,说完恢复。

不影响思考Token,不影响技术准确性。想得一样多,说得更少。
00