即刻App年轻人的同好社区
下载
App内打开
产品二姐
137关注1k被关注2夸夸
公众号知乎小宇宙同名
AlphaWiseWin,book2skills,claudeleakage
极客时间:成为AGI产品经理
置顶
产品二姐
2年前
费曼学习法,相信代码和自媒体。

坚持原创的科技博主,也正在孵化自己的产品。

极客时间有一门「成为AGI产品经理」
(看了也不一定能成为,但可以带你走在成为的路上)

传播较广的几篇文章,有可能你也看过:

1. 产品经理研读:Agent的九种设计模式(图解+代码):mp.weixin.qq.com
2. Agent开发者坦白:窘境中前行:mp.weixin.qq.com
3. 用一张图理解所有的AI“聊天”产品:mp.weixin.qq.com
4. 我在调研了十几个知识库对话产品后整理出来的功能清单:mp.weixin.qq.com
5. RAG组合拳:AGI应用走向落地的40%:mp.weixin.qq.com
6. 做大模型AI应用一定要了解的成本计算公式:mp.weixin.qq.com
514
产品二姐
7天前
看完A社《2028年:全球人工智能领导地位的两种情景》 ,感觉Dario真是疯了。内容过于敏感,大家自行搜索。
1. 过度关注竞争对手,是走向落后的开始。
2. Claude Code 到期后,我不会再续了,全面转向Codex。所以,对于OpenAI来说,只要等对手犯错就可以了。
3. 华人工程师、研究员在A社在无形中会流失。
4. Claude可以没有意识到,它将失去潜力巨大中国出海企业的市场空间。
5. 格局放大一点,AI是全人类的AI, 不是一国的AI,AI最安全的发展是: 不同利益集团有相互制衡彼此的能力,像核武器一样。 --这一点是来自于受 @张小珺 与姚顺宇的对谈。
311
产品二姐
8天前
感谢Mindcode 提供了那么好的听众,会后被很多“一句话感受”戳中, “世界上有两种重要的能力,一种是构建东西,一种是卖东西;两个都很难”。过去的十几年都在努力做好产品,下一个十几年学好卖东西。

文兄MattWen: 这期mindcode闭门会 是我跟 @产品二姐 聊,很有意思。很坦诚开放,有现场感的一期。 真好。

20
产品二姐
16天前
最近在codex 里使用 harness,自动化程度真的很高了,基本写好PRD, 隔一两个小时看一下,而且token 消耗也低(因为无干扰情况下系统可以很好的命中cache)。
具体构建harness 的方式是:
1. 访问book2skills.com, 搜索 harness, 安装相关的3个skill(图1)。

2. 在codex里输入: 使用这几个skill 为自己的项目构建harness系统。

3. 完成后,codex 会创建以下内容:
- 概览内容: 文档地图,系统架构...;
- 项目管理:exec-plan,执行计划,backlog,technical debt, progress,task 等;
- session管理机制:session指的是在长时间任务下,如何做好不同任务之间的转换,即如何确认开启一个新对话,开启新对话后如何更新相应的进度,如何做好下一个对话的衔接。
- 我在这里还没有开始使用harness里的evalator 和generator对抗的机制,是因为目前的需求比较简单,另外为了省token,evalator和generator会消耗大量的token 。

4. 和Codex 共建,优化再优化你的PRD。

5. 根据新的PRD 重新构建backlog。

6. 发出最后指令:依次完成backlog里的任务。

7. 等待完成。

PS: 以上步骤在codex 上线GPT 5.5 之后,效果已经远高于Claude code Sonnet 4.6。 O社与A社的你追我赶尚未定局。过几年后视镜来看, A社对华的敌视可能是ta犯的最大错误。
011
产品二姐
28天前
V4终于出来了,为了避免被卡脖子,算力资源上应该是克服了不少困难。

想起一年前发的视频,那时候预测是2025年底出货,现在出来也不算晚,希望成为国货之光。

至少Deepseek V3的低成本优势,让我们在早期维持盈利,如果换做sonnet,可能是完全不一样的成本开支。

期待能从“性价比之王”赶超世界顶尖水平。
00
产品二姐
1月前
这是我第三次阅读A社的skills介绍,
从【概览】到【企业级技能】

platform.claude.com

读完又有新的体会。

如果你也能花十分钟读完,就可以做到:

1. 几乎不用看任何关于skills概念的其他文章。
2. 有效识别什么算一个好的skill。
3. 你自己创建skill应该注意什么。
4. 拿到一个skill 应该如何让它变得更适合你。

PS: 虽然claude不对华友好,但是仍然提供了中文版本,无阅读障碍。
03
产品二姐
1月前
说一个庸俗的想法,Claude开启真人验证后,我想起了零几年在人大门口做假证的那帮人,不知道他们还开展这个业务吗?

有人推荐改用codex,事实上用过codex的人,就知道二者差距,至少现在是这样。
00
产品二姐
1月前
一旦明白harness诞生的初衷,就会理解为什么Harness要这么做,以及怎么改进它。

参考A社的两篇关于Harness的文章标题都写了“long-running”(图1)

从开发者角度,harness 是为了达到无人值守开发的目的。推而广之,需要长期维护的项目也需要用harness。

比如今天有朋友问:

“如果用AI Coding工具在之前很大的一个系统上去迭代,应该怎么做呢。不可能把之前的页面全部做一遍吧。”

那么一旦涉及“长”时间和“长”期项目,就需要保证AI Agent 发挥的稳定性。所以你会看到,在Open AI 和 Anthropic的实践中,看到以下步骤。

其中的基础步骤我已总结成skills,放在这里分享:claudeleakage.com

大家拿到后安装,直接调用skills就可以完成项目基础的harness engineering建设了,定期跑一下,对项目的长期维护有很大好处。

第一步(图2): 做一个项目地图,像一个索引一样。 Agent每开始一个任务,首先来这个看索引,找到它应该去看的内容。比如Agent要新增一个页面,它看到这里会有一个design标准、前端框架文档,就会倾向于从众多文档中读这两个文档。

第二步(图3):在地图里的各个文档中查找具体标准和详细内容。比如架构文档architecture.md中,会有项目采用的前、后端框架等等。

前两步解决了横向的内容广度问题。

接下来的一步要完成纵向的时间维度问题,也就是长任务会拆成若干个子任务,如果把一个长任务都放在一次对话中,会产生记忆爆炸的问题,这时候任务的衔接就会需要用到第三步。

第三步(图4):对话管理。它像一个项目进度记录一样,记录了现在有什么任务还没有完成,当前进行的任务的进度 Progress.md等等。 这样,每次开始新任务,Agent可以触发总结之前的任务进度,以便后续任务作为上下文使用。

以上三步是基础步骤,harness engineering的进阶版需要引入评估器,但这玩意还是挺消耗token的,因为每次都要对已经完成的任务进行评估、测试,耗时、耗力、耗钱,一般情况下我理解用这三步基础的就够。
01
产品二姐
1月前
父亲70岁,身体健康。打算五一期间骑自行车从北京回老家(陕北榆林),总路途815公里,预计12-15天,日行40-90公里,想发帖问一下沿途路况,有骑过以下部分路段,或对路段比较熟悉的朋友,尤其是进入山西穿行太行山这段路的路况,如能告知不吝感激!

以下是高德目前规划出来的路线图,两步路上的路线有点老,另外父亲年龄比较大了,难度要降低,能回去就行。

骑行装备:目前打算是日本丸石内三速城市自行车, 不需要快,只需要稳。

Day1: 北京昌平 -> 涿州, 84公里

Day2: 涿州 -> 保定 86公里

Day3:保定 -> 定州 63公里

Day4:定州 -> 石家庄 74公里

Day5:石家庄 -> 平阳湖景区 69公里

Day6:平阳湖 -> 阳泉 42公里

Day7:阳泉 -> 寿阳县 42公里

Day8:寿阳 -> 晋中 56公里

Day9:晋中 -> 交城县 63公里

Day10:交城县 -> 汾阳 52公里

Day11:汾阳 -> 吕梁 78公里

Day12:吕梁 -> 吴堡 56 公里

Day13:吴堡 -> 绥德 57公里
80
产品二姐
1月前
Claudeleakage.com 上线 《Claude code 之harness engineering 从入门到实践》PDF,开放下载,欢迎大家阅读。

claudeleakage.com

有些同学问,为什么我们要研究Claude code,Claude在泄露源码前就开放agent SDK,也可以配上不同模型使用。我的回答是:你是一个车主,你买特斯拉就够了,但是,你是个造车的,买来仅仅开就不够了。 我们想做的就是:Claude code的“整车改造”。

这是中国制造走向中国创造的路,软件上也同样适用。再说,哪怕你不是造车的,你也可能是个修车的,借鉴其部分思想都是有益的。
25
产品二姐
1月前
果然代码泄露之后有更大的瓜了。

实际上Mythos在3月26号就Anthropic 因数据缓存配置失误,将模型「Claude Mythos」信息的内部文件和博客草稿公开暴露于网络,外界由此在官方公告前得知其存在。Fortune 报道后,Anthropic 当天即下线该数据缓存。

虽然Mythos现在不能用,但是以后呢,估计也不会藏着掖着。

能不能用先放在一边, 第一时间把官方pdf 报告拿来解读一下。

重点解读了第六章:能力评测。代表着模型未来的能力方向。

直接访问链接解读:
claudeleakage.com

这里放几张截图。

最让我注意的两点:
1. 深度检索能力,Mythos Preview用226Ktokens(Opus 4.6的1/4.9)达到更高准确率。也就是token花费少了,效果更好了(图6)。

2. 目前完成度还不够好的能力有:

- 软件工程SWE-bench 多模态测试集,即在 issue 描述中加入截图、设计稿等视觉上下文,测试模型结合图文信息完成工程任务的能力。目前得分59.0%.(图3)

- 智能体搜索:Humanity's Last Exam。2500 道覆盖人类知识边界的多模态题目,号称"最难的 AI 基准"。目前得分64.7%(图7)。

- 电脑自动化:OSWorld。让智能体在真实 Ubuntu 虚拟机中,通过鼠标和键盘完成实际电脑任务:编辑文档、浏览网页、管理文件。以 1080p 分辨率运行,每任务最多 100 步操作。目前得分 79.6%(图8)

官方pdf 报道在这里:
www-cdn.anthropic.com
00