即刻App年轻人的同好社区
下载
App内打开
陈惑仔Harry
124关注1k被关注1夸夸
Plaud AI产品经理🤖
关注AI与人类🧘🏻
热爱真知📖
置顶
陈惑仔Harry
18天前
又是一呕心沥血之作 - 拆解Claude Code(上)
第一期给大家讲一下:
1. ReAct架构
2. 怎么在这个架构上给Agent扩展能力
3. CLAUDE.md

下一期给大家讲Skill、Hooks、MCP
78
陈惑仔Harry
4天前
贸易战会倒逼本地产业升级这件事历史上发生过。
是中国对欧洲的贸易战。

明中期中国瓷器是欧洲家庭的关键消费品。仅英国东印度公司在明朝就进口约 4500万件。

因为明清战争与清初海禁,中国限制外销瓷出口。
欧洲为满足需求,先转向日本瓷,再催生本地替代产业:代尔夫特 34家陶厂中有 17家建于1653—1662年(清初)。
最终欧洲陶瓷产业年产能最高900万件,年利润最高110万两白银(当时中国对英国的年贸易顺差为230万两白银)。

瓷器对于当时欧洲人的难度,不比今天芯片对于中国人简单:高岭土配方、釉药化学和高温窑炉控制…当时也认为难以复制。

然而对于物理实体,知道能造出来,已经解决了一半的问题。
此时此刻,角色反转,恰如彼时彼刻。
31
陈惑仔Harry
6天前
不同IM入口=不同场景、这是用户已有的;切换场景=切到一个openclaw的不同workspace;不明白什么叫消灭结构 我认为人性是相信稳定的专业化工具 //@一拳超八Zoe: 你这个路径太重了 情绪成本过高

你在假设 用户愿意管理多个场景➕agent➕IM 入口 但是现实是 用户可能连一个微信都懒得分组

未来的方向肯定是消灭结构 而不是增加 没有场景切换 也没有选择 agent和 IM 的决策过程 而是以用户行为完成判断 给出最小响应

陈惑仔Harry: 我看到一个未来。 1. 人类按场景组织context,每个场景有自己的IM界面和Agent;每个场景只有一个IM作为入口 2. 通过腕带/戒指 控制 双向耳机/眼镜 切换场景 3. 耳机/眼镜 负责捕捉信号、发送给场景Agent和IM 4. 简单操作语音控制场景Agent,复杂操作打开场景IM 5. 手机是新的笔记本,Skill是新的软件 6. 场景IM里通过卡片/小程序的形式,呈现Skill的结果 7. 亚洲创业者的机会很大,在硬件

00
陈惑仔Harry
7天前
和特朗普比 巴菲特只能算股民
00
陈惑仔Harry
10天前
我看到一个未来。

1. 人类按场景组织context,每个场景有自己的IM界面和Agent;每个场景只有一个IM作为入口
2. 通过腕带/戒指 控制 双向耳机/眼镜 切换场景
3. 耳机/眼镜 负责捕捉信号、发送给场景Agent和IM
4. 简单操作语音控制场景Agent,复杂操作打开场景IM
5. 手机是新的笔记本,Skill是新的软件
6. 场景IM里通过卡片/小程序的形式,呈现Skill的结果
7. 亚洲创业者的机会很大,在硬件
35
陈惑仔Harry
13天前
拆解Claude Code(下)——Hooks、Plugins、总结
1.一切的起点,是极其简单的ReAct循环(想、动、看)

2.在循环之上,我们沿着Context脑容量和Action手脚的正交维度,以及开辟独立Loop小分队的设计,给它无限添加能力。(CLAUDE.md、Skills、 MCP、Subagents、 Teams)

3.在能力之外,我们跳出模型,在执行层用Hooks加上强硬而确实的死规矩,实现闭环
22
陈惑仔Harry
17天前
Claude Code逐层拆解(中) - Skills、MCP、Subagents、Agent Team
书接上回,ReAct循环是 Claude Code的本质。
本期介绍的四个,则是从不同角度给ReAct增加能力,Skill是增加Context、MCP是增加工具、Subagent是扩展的独立ReAct Loop

用一句话总结就是看我文章的四个正交分析维度就行了。
30
陈惑仔Harry
23天前
最近不少投资人、开发者、产品经理、爱好者配置了 OpenClaw,但使用体验并不好。原因可能是SOUL.md这种 System Prompt 的编写过于依赖直觉,缺乏结构。
工业级的 Prompt 优化是一套严谨的工程方法。
生产环境下的调优可概括为三步走:
1. 制定基准测试(Benchmark)
2. 构建初始 Prompt
3. 基于 A/B 测试循环迭代
核心总结【优秀的 Prompt 是测出来的,不是一次性写出来的】

1. 核心机制:LLM-as-a-Judge
面对海量测试样本,人工评估极不现实。解法是让 AI 充当“阅卷人”。
产品经理作为“出卷人”定义量化标准:维度 + 权重 + 评分细则。

例如「AI 减脂建议」的评测标准:

- 有用性 70% + 易操作性 20% + 情绪价值 10%

- 细则量化:3分(学术验证有效),2分(多数人有效),1分(无效)。

2. 评测提示词(Judge Prompt)的最佳实践
构建“阅卷人”的标准操作:

- 解耦维度:每个维度独立编写 Prompt 并分开调用 API,避免模型注意力分散。

- 结构化:使用 XML 标签(如 <task>, <examples>)隔离指令。

- 对齐人工:提供覆盖高低分的 Few-shot 示例,先人工打标 10-20 条,对比 AI 打分直至标准对齐。

- 稳定性:Temperature 务必设为 0。

3. 生产提示词(System Prompt)的结构化写法
推荐采用标签化的 xml 模块写法:

<role> 设定系统角色
<task> 明确核心任务
<guideline> 分步拆解执行逻辑
<examples> 提供多场景的 Few-shot
<format_requirement> 约束输出格式

优势:结构清晰,便于后续控制变量进行单模块的优化与实验。

4. 科学迭代:控制变量法
A/B 测试的核心在于控制变量。切忌同时修改多个模块,否则无法归因提升来源。

正确的迭代路径:

分析低分 Case -> 判断是通用逻辑缺陷(General Case)还是边缘场景(Edge Case) -> 抓主要矛盾 -> 单独修改影响最大的段落(如只改 Guideline) -> 重跑 Benchmark 验证。

5. 工程实践与产品反思
大批量跑测时的避坑指南:

- 务必使用多线程并设定 Checkpoint 定期存档,采用 append 模式写入,避免异常中断导致数据丢失。

- 如果调优毫无起色,需反思任务本身是否具备可行性(Practical)。

- 如果一两次就拿满分,需检查评估标准是否过于宽松。

最后的最后,AI 只是工具,即使机评分数达标,仍需进行人工抽样走查,对最终结果负责,判断表现是否在Use Case上是否符合预期。Overall it's taste that matters.
016
陈惑仔Harry
28天前
要我说高达动画就是预言家
OO里的中东暴乱、超级智能介入就不说了。自动杀人机、硬件陪伴、量子计算不是一个个都实现了,亚、美、欧三极也差不多了。

还有seed里的人造子宫、基因编辑、太空移民、移民和地球人的矛盾…

可惜人类就是无法从历史里学习。
23