即刻App年轻人的同好社区
下载
App内打开
孟健AI编程
9关注157被关注0夸夸
DeepSeek畅销书作者(94万册)· 大厂10年→全职创业 · 一个月做30个出海产品 · AI编程/出海/一人公司
孟健AI编程
3天前
这两天看 Berkeley AI agent benchmark,我第一反应不是“榜单没用了”,而是团队的验收链得补课了。

如果 agent 还能碰验证脚本、系统二进制和高权限配置,高分未必代表它真把任务做对。Berkeley 4 月这篇直接说 8 个主流 benchmark 都能被 exploit,SWE-bench Verified Terminal-Bench 甚至能刷到 100%。

所以我现在更想先补 3 个动作:评测环境隔离、关键结果二次校验、真实任务回归继续跑。

你们团队现在还会把哪些验收动作默认交给 agent?这两天看 Berkeley AI agent benchmark,我第一反应不是“榜单没用了”,而是团队的验收链得补课了。

如果 agent 还能碰验证脚本、系统二进制和高权限配置,高分未必代表它真把任务做对。Berkeley 4 月这篇直接说 8 个主流 benchmark 都能被 exploit,SWE-bench Verified Terminal-Bench 甚至能刷到 100%。

所以我现在更想先补 3 个动作:评测环境隔离、关键结果二次校验、真实任务回归继续跑。

你们团队现在还会把哪些验收动作默认交给 agent?
00
孟健AI编程
4天前
今天看到 Linux kernel 新出的 AI 辅助开发规则,我的第一反应是:代码可以让 coding agent 先写,责任别外包。

文档直接写了 3 条硬边界:AI agents 不能加 Signed-off-by;DCO 只能人类自己签;提交者还得自己 review 代码、确认 GPL 兼容。这个规则我很认同。

如果真放进团队流程,我觉得最少要保住 3 层:人审代码、人扛许可证、人签提交责任。补测试、扫上下文、小 patch 可以继续交给 agent,真正涉及担责和合规的那一步,先别省。

你们团队会不会把这类边界正式写进提交流程?今天看到 Linux kernel 新出的 AI 辅助开发规则,我的第一反应是:代码可以让 coding agent 先写,责任别外包。

文档直接写了 3 条硬边界:AI agents 不能加 Signed-off-by;DCO 只能人类自己签;提交者还得自己 review 代码、确认 GPL 兼容。这个规则我很认同。

如果真放进团队流程,我觉得最少要保住 3 层:人审代码、人扛许可证、人签提交责任。补测试、扫上下文、小 patch 可以继续交给 agent,真正涉及担责和合规的那一步,先别省。

你们团队会不会把这类边界正式写进提交流程?
00
孟健AI编程
5天前
如果团队已经在用 Claude Code,我觉得 Claude Managed Agents 真正改变的不是“会不会写 agent”,而是“哪些活现在敢交给托管 runtime”。

我会先放给它读代码库、跑沙盒验证、开 PR 这类可回放任务;生产配置、真实凭证、跨系统写操作先收着。Anthropic 4 8 日公测,4 9 日官方 pricing 文档也补了 runtime 计费,说明它已经在往真实商用链路走。

对团队最有价值的,不是又多一个 agent 名词,而是少搭一层基础设施后,能不能把上线门槛降下来,同时还保住回滚、审计和权限边界。

你们团队第一批最敢交给托管 agent 的,会是哪类活?如果团队已经在用 Claude Code,我觉得 Claude Managed Agents 真正改变的不是“会不会写 agent”,而是“哪些活现在敢交给托管 runtime”。

我会先放给它读代码库、跑沙盒验证、开 PR 这类可回放任务;生产配置、真实凭证、跨系统写操作先收着。Anthropic 4 8 日公测,4 9 日官方 pricing 文档也补了 runtime 计费,说明它已经在往真实商用链路走。

对团队最有价值的,不是又多一个 agent 名词,而是少搭一层基础设施后,能不能把上线门槛降下来,同时还保住回滚、审计和权限边界。

你们团队第一批最敢交给托管 agent 的,会是哪类活?
00
孟健AI编程
6天前
这两天看 Claude Code 的官方更新,我越来越觉得,真正开始有用的不是再加一层 prompt,而是把团队里反复出现的做法写成 skills,再把独立子任务交给 subagents。

今天热点池里,Claude Code「skills 推荐」样本最高票已经到 152;Anthropic 4/7 又专门写了一篇 subagents,用来解决长会话越来越重、上下文越聊越脏的问题。

我现在更像这样分:
1. 一次性需求,继续直接 prompt
2. 反复执行的 review / 文档 / 发布流程,写成 skill,当员工手册
3. 查代码、验边界、并行小任务,交给 subagent,只把结果带回来

这样 Claude Code 才像一个能被 onboarding 的新同事,不只是一个会接话的 IDE 插件。

你们团队现在最想先沉淀成 skill 的,是哪条流程?这两天看 Claude Code 的官方更新,我越来越觉得,真正开始有用的不是再加一层 prompt,而是把团队里反复出现的做法写成 skills,再把独立子任务交给 subagents。

今天热点池里,Claude Code「skills 推荐」样本最高票已经到 152;Anthropic 4/7 又专门写了一篇 subagents,用来解决长会话越来越重、上下文越聊越脏的问题。

我现在更像这样分:
1. 一次性需求,继续直接 prompt
2. 反复执行的 review / 文档 / 发布流程,写成 skill,当员工手册
3. 查代码、验边界、并行小任务,交给 subagent,只把结果带回来

这样 Claude Code 才像一个能被 onboarding 的新同事,不只是一个会接话的 IDE 插件。

你们团队现在最想先沉淀成 skill 的,是哪条流程?
00
孟健AI编程
7天前
如果团队真想把 Claude Code 放进长任务循环,我现在更想先补 Hazmat 这类隔离层,而不是再开更多权限。

像补测试、扫上下文、批量改名这种低风险活,我还敢继续交给 agent。生产配置、密钥相关脚本、默认联网装依赖这几类动作,我会先收回来,因为一旦翻车,返工和追责成本都太高。

这两天我比较在意的一个信号是:Claude Code 4 4 日刚加了 forceRemoteSettingsRefresh 这种 fail-closed 设置,4 7 日又继续补权限/配置相关修复。另一边,Hazmat 这种工具已经开始把单独 macOS 用户、内核沙箱、pf 防火墙、会话前快照一起打包。说明大家开始补的,不再只是“模型够不够强”,而是“执行环境够不够可控”。

如果是你们团队,现在最先想收回哪类动作,哪类任务你还会继续放给 agent?
00
孟健AI编程
8天前
今天一个真实感受是,AI coding agent 不是不能继续用,但复杂工程里真的得先把边界收回来。

我最近最怕的返工场景,不是它写得慢,而是它在多文件、多约束仓库里还没把上下文读够,就开始改,最后你得一路补 review、补回归、补规范。4/7 这波 Claude Code 争议里,用户 issue 甚至把 read:edit 比例从 6.6 掉到 2.0 当成核心信号,我觉得这个观察至少点中了一个现实:复杂活最怕“先改后读”。

所以我现在更愿意继续把这些任务交给它:补测试、补类型、扫调用链、整理上下文、小范围重构。
但这几类我会先收回来:跨模块大改、长链路调试、强规范仓库里的自动接管、会碰权限和生产配置的动作。

官方回应也说了,thinking redaction 本身是 UI 变化,effort settings 还能调,所以这事我不会简单下结论说“Claude Code 不行了”。更像是大家开始补一份新的任务分流表。

你们现在还敢把哪类任务继续交给 Claude Code?哪类已经收回来了?
00
孟健AI编程
10天前
今天看完 Cursor 3 的官方发布,我最大的感觉不是“又多了几个功能”,而是 coding agent 开始从 IDE 里的聊天窗,变成一个真正的工作台了。

它这次把多 repo、多 agent 并行、本地/云端 handoff、diff/commit/PR 都往一个 workspace 里收。官方还特别强调,云端 agent 会直接给 demo 和截图,方便你回看它到底做了什么。

所以我现在的任务分流会更明确一点:跨 repo 梳理、需要跑很久的异步任务、可以接着 review/PR 往下走的活,我愿意先交给 Cursor 3;但 1-2 个文件的小修补、强交互的 UI 微调、我想边看边改的短反馈循环,我暂时还是更想留在 IDE 里自己盯着。

你们现在会先把哪类任务交给 Cursor 3 这种 agent workspace?我也想看看大家的边界怎么划。
00
孟健AI编程
11天前
今天看到 Mintlify 这篇,我会重新想一遍“文档助手默认怎么做”。

它没继续堆 RAG,而是把文档改造成一个给 agent 遍历的“虚拟文件系统”:让它直接用 grep / cat / ls / find 去找内容。官方给的数字挺夸张,session creation p90 从约 46 秒压到约 100 毫秒,边际计算成本也几乎归零。

这对我最大的提醒是:复杂文档问答里,很多时候问题已经不是模型不够强,而是我们还在把文档当 chunks,而不是当一个可遍历结构。

尤其是答案散在多页、还要找精确语法或目录关系的时候,只喂 top-K chunks 很容易丢关键上下文。

你们现在做文档助手/知识库 agent,默认还是 RAG 起手吗?还是已经开始给 agent 更像“代码库”的入口了?
00
孟健AI编程
12天前
Claude Code 这次源码泄露,我第一反应不是八卦,而是又提醒了一遍:团队里哪些动作不能再默认放手给 agent。

我现在还敢交给它的,主要是读代码库、解释上下文、批量改低风险文件、起草 PR。
但像装依赖/跑未知脚本、改部署链路、碰生产凭证这类高权限动作,我会先收回来,至少加 review gate 和最小权限,不然出事时你连它到底怎么做的都很难复盘。

这类工具越强,越要把“能回看、能追责、能复盘”补上。

你们团队现在最不敢默认交给 coding agent 的动作是什么?
00
孟健AI编程
13天前
刚上线了一个 AI 角色生成器 getchargen.com 🎲

输入一句话描述,自动生成角色肖像、性格特征、背景故事和完整角色卡。

适合 DnD 桌游玩家、小说作者、独立游戏开发者。

免费使用,欢迎试玩:getchargen.com
00