Bink_Ron的个人主页

即刻App年轻人的同好社区

下载

Bink_Ron

202关注173被关注0夸夸

💻Ex百度，做过增长、数字人，现在做Agent
📱AI coding各种玩法探索中
🏎️INTP，喜欢驾驶、摇滚

Bink_Ron

29天前

【OpenClaw 的主动性是怎么来的？】

OpenClaw 小龙虾这两个月的现象级破圈应该不必多说，这么工程范的硬核产品居然取得了如此广泛的关注，在圈内更是破了 GitHub 的星标记录。

它给人最大个感受是，像个活生生的助手，而不仅仅是个高级命令行问答机。尤其是可以接入 IM 后，它可以随时待命，随时听从使唤在后台帮我们长程地工作，给到真正的交付。甚至不仅仅是被动接活，还会主动发现需求或问题。这些主动性设计可能是它真正触动用户的地方，让原先只有老板能享受的服务下放到自己身上。

但可能很少人去盘点，OpenClaw的源代码背后到底包含了哪些设计，使它呈现出主动性，我抽空整理了一下。

在工程底层，OpenClaw 通过全局的事件注入队列和节点事件路由器，建立了一个统一的「自唤醒」基座。基于这个基座提供的脉络，可以梳理出贯穿其完整生命周期的四类主动性设计。

一、新手引导机制（Onboarding）
- 用户体验：第一次启动或创建新 Agent 时，它不会像客服机器人一样说“我是助手，能帮您什么”。它会主动发问：“Hey. I just came online. Who am I? Who are you? 你想让我叫什么名字？我的专属 Emoji 是什么？”并在聊天结束后，自动把这些人设记熟。
- 工程逻辑：我发现它背后既不是硬编码也不是纯 prompt，而是结合了一下。当 Gateway 发现这是一个全新创建的 Workspace（即没有记忆文件）时，会自动把 `BOOTSTRAP.md` 这个模板文件拷贝进工作区。这个文件是预设好的给模型的冷启动剧本，翻译过来大概是：

“你刚醒来。因为这是一个干净的工作区，所以你还没有记忆。不要像机器人一样对话，也不要审问用户。像人一样问：‘Hey. I just came online. Who am I? Who are you?’，然后和用户一起决定你的名字、性格、专属Emoji。完成之后把结果写进 `IDENTITY.md` 和 `USER.md` 以及 `SOUL.md` 里。**最后，删掉这个 BOOTSTRAP.md 文件**，你不再需要新手引导了，你已经成为了你自己。“*然后小龙虾跟你聊完就完成了设定好的冷启动，删掉这个文件。

这是一种「用 LLM 扮演和执行自己的新手引导，最后阅后即焚」的新手引导机制，用 Agent 的方式降低了前端开发工作量，却创造了高度拟人、有温度的初始体验。

二、跨越时间的指令执行能力
大部分 Agent 是被动响应：如果用户不说话，AI 就挂起。OpenClaw赋予了 Agent 在时间维度上的控制能力。

1. 定时任务：Cron Tool
- 用户体验：你可以直接对它说：“以后每周一早上给我发一份 Hacker News 摘要”。系统就记住了，且每周准时发。
- 工程逻辑：OpenClaw 内部开发了完整的 Cron 调度引擎（解析、轮询等），然后**将其包装成了一个叫 `cron` 的 Tool 提供给 Agent 使用**。当用户提出时间需求，Agent 自行推理调用 `cron` 工具，实质上是它自己给自己定了一个唤醒闹钟，在设定的时间点主动拿着任务被调用一次，起来执行。

2. 心跳轮询：Heartbeat
- 用户体验：不仅能记住特定任务，有时候它也会主动在空闲时“找点事情跟进”或问寒问暖。
- 工程逻辑：
- Gateway 守护进程启动了一个原生的 `setInterval`。如果设定了心跳，它默认每半小时就会自动带着句 Prompt 去戳一遍 Agent：“阅读工作区中的 `HEARTBEAT.md`。严格遵循。如果没什么需要注意的，回复 `HEARTBEAT_OK`。”
- 精妙之处在于，如果 Agent 看了看确实没事可做，回复了 `HEARTBEAT_OK`，系统层代码会直接拦下这个回复，并把这轮“打招呼”的上下文记录彻底隐形和删除。既保持了全天候巡视，又不浪费一点历史 Token。

三、对后台任务的掌控与异常处理能力
当 Agent 在后台开启了“多线程”操作或系统崩溃时，被动架构会导致彻底丢失进度，但 OpenClaw 处理得十分主动。

1. 完成任务后的主动汇报
- 用户体验：你给它布置了一个编程任务然后去睡了。两小时后，它在微信主动发消息：“代码编译完了没有报错，顺手帮你把服务跑起来了”。
- 工程逻辑：Agent 经常执行长耗时终端命令。在 OpenClaw 中，不需要转圈阻塞。当后台进程结束触发“执行完成状态”时，Gateway 会主动拼接输出结果并调用 `enqueueSystemEvent` 丢给 Agent 强制拉起它，让它立刻汇报进度。

2. 崩溃重启的自发报告
- 用户体验：你的 mac mini因断电重启，启动后 Agent 马上发言：“刚才我的服务器挂了不好意思，我们刚刚聊到了XXX，我接着看。”
- 工程逻辑：在 `server-restart-sentinel.ts` 里面藏着一个“崩溃哨兵”。网关启动时，如果发现上次有正在进行但没结束的对话，会对 Agent 强行打入指令 `Gateway restarted mid-run...`，促使其主动对用户进行服务受损声明和状态找回。

四、对重要事情的主动监听能力
最终极的主动性，是不需要用户输入聊天框框，Agent 能自己看着外面的世界发起对话。

- 用户体验：用户不需要每天说“帮我查查邮件”。如果合作方发来紧急邮件，Agent 会直接闪出摘要：“注意，XX刚发来一封退款邮件，似乎有些问题，需要我回吗？”
- 工程逻辑：OpenClaw 支持在网关层挂载第三方 Webhook 甚至启动长期服务。在 `src/hooks/gmail-watcher.ts` 中，系统通过 Google Pub/Sub API 启动了一个守护进程订阅用户的收件箱变化。新邮件砸进来时，事件直达 `handleNodeEvent`，最终打上外生标记并拉起 Agent 进行动作推理，做到了“事件驱动的AI”。

4 00

Bink_Ron

1月前

AI Agent 产品本质上在解决什么问题？

这两个月，openclaw 突然间爆火，迅速突破GitHub 星标记录，成为史上最快登顶 GitHub 的项目。非常震撼。

我回家路上仔细品味了一下，爆火的背后到底是什么普适性的需求被满足了？Openclaw，可能是激发了人们对 AI 助理的期待：随时待命，去做点真正的产出。甚至不仅仅是被动接受任务，还会主动发现需求或问题，给主人提出并解决。

这在职场中，是优秀员工才具备的能力，即所谓的自主性。老板不用给太多指令，只需要说想法，员工会自己揣摩清楚老板意图，和老板确认是不是要这个，还会汇报思路和过程。最后不但完成目标，而且超额完成。甚至会自己琢磨老板的战略意图，提出一些有价值的工作规划，向老板汇报，得到肯定后再自己把规划实现。

简直了，OpenClaw 是在打造超级助理啊。不是人人都能当上老板，但人人都想体验当老板的快乐啊。

这种兴奋背后藏着一个容易被忽略的事实：人们对 AI native 产品的期待，从一开始就不是对"工具"的期待，而是对"服务"的期待，更具体地，是对“定制化服务”的期待。

【公共服务 vs 定制服务】

现有的服务，应该是很早就分化成了两种基本范式。

一端是公共服务。商场、超市、地铁、搜索引擎、电商平台——服务供给方设计好一套结构，所有人进来自助。你走进宜家，动线是设计好的，商品是陈列好的，价签是贴好的，你自己看、自己选、自己搬、自己结账。没有一个人专门为你服务。

另一端是定制服务。私人医生、管理咨询、私人银行、高端留学中介——服务者根据你的具体情况，量身定制方案和交付。一个麦肯锡的项目经理不会拿一套通用 PPT 糊弄你，他会花几周时间理解你的业务，然后给你一份只属于你的诊断。

但大多数需求不是只能靠其中一种来满足的。你想买衬衫，可以去优衣库自己挑，也可以找裁缝量体裁衣。你想了解一个行业，可以自己查资料，也可以请咨询公司出报告。选哪种？多数时候不是偏好问题，是 ROI 问题——有钱人请裁缝，不是因为不会逛优衣库，而是时间比钱贵；普通人自己查资料，不是因为享受查资料，而是请咨询公司的钱比自己的时间贵。

所以在这条线上，两端之间横着一大片灰色地带：**需求本来适合定制，但碍于成本，不得不用自助来将就。**

我判断，AI Agent 产品未来要做的，就是这条线上的市场。能做到什么程度，取决于它从定制服务那一端出发，能把成本压到多低、效果做到多好。

【受 AI 影响较弱的一块】

有些市场天然地很难被 AI 蚕食，不是因为护城河深，而是因为需求的性质决定了它不适合定制服务来满足。

我举个例子，比如商场，未来商场或电商平台会因为 AI 而消失吗？我认为不会。它可能会减少，但不会消失。

- 减少的那部分需求，是那些想快速找到东西的购物需求，这些人进商场往往没有逛的动作，要么进商场之前就想好了要买什么、怎么买，要么直接跟导购沟通需求。这些人的需求，随着 AI 导购模式越来越成熟，会逐步迁移过去。
- 不会消失的那些需求，是逛的需求。这些人往往就是享受逛本身，需要通过逛来消磨时光，获得快乐。这些人往往希望导购员离他们远远的，现在很多大门店的导购员都不再主动迎接用户了，只在需要的时候响应。

**AI 是生产力，其特点是高效，但如果某些需求场景下，用户根本就不在意高效，AI 就难以施展。这部分市场，未来可能是反脆弱的。**

【AI 真正搅动的市场】

这部分现实很残酷。我认为，所有"当前由人提供定制服务"的场景，长远来看，通通在 AI 的射程之内。逻辑很直接：AI 的核心能力是像人一样理解需求、像人一样交付结果，但成本低一个甚至几个数量级。只要效果过了"够用线"，渗透就会开始。

广义的咨询是最先被撕开口子的。从"帮我分析这个市场"到"帮我看看这份合同"到"帮我规划这次旅行"，当前的服务供给极度分层：顶层麦肯锡高盛，中层垂直服务商，底层是你自己查资料——自己给自己当咨询师。各种 chatbot及其Deepresearch产品，本质上都是在底层和中层之间撕开了一道口子，质量已经超过"自己查"，正在逼近中层服务商。

编程也一样。以前想做个小工具，要么自己学（自力更生），要么雇程序员（定制服务）。Claude Code、Cursor 出来之后，不写代码的人也能"雇" AI 完成开发任务。当前还有操作门槛，但方向确定。

这些是已经在射程内的。但更值得关注的，是那片正在进入射程的巨大灰色地带。

出行是个典型。大多数人坐地铁通勤，利用规模效应压低成本。这些人不想坐专车吗？当然想。只是月薪一万五，拿三千打车通勤，交 20% 给出行成本，ROI 不允许。但如果 AI 驾驶的专车把成本打到每月多花 300 块、占收入 2% 呢？一旦 ROI 打正，大量人就会从地铁迁移过来。

教育也一样。有钱人请私教、一对一辅导，普通家庭上大班课、课后刷题。不是不想一对一，是请不起。AI 家教成本降到每月一百块以内，还有多少家长让孩子纯靠刷题？

**AI 搅动市场的真正方式，不是消灭公共服务，而是持续降低定制服务的成本，把原先被迫自助的人群，一片一片地拉进定制服务的范围。** 成本每降一点，灰色地带就收窄一圈，AI 的领地就扩大一圈。

【AI Native 产品当前的核心约束】

经过上面的分析，AI native 产品的核心约束有两个：AI agent 的效果和成本。当前，**AI agent 这个要素还是个极大的变量，在快速演变中，这个演变最终将通过影响成本来搅动这个社会的整体效率，通过影响效果来搅动社会分工。**

且当前我有个暴论：**对大多数消费级场景而言，成本是目前更重要的约束**。

原因很简单——AI native 产品几乎不存在 product-demand fit 问题。私人管家、工作秘书、一对一辅导、个人顾问，这些定制服务人类几千年来一直是渴望的，只是绝大多数人消费不起。AI 不需要"发明"需求，需求一直都在，被成本压着而已。限制扩张速度的，不是"用户想不想要"，而是"用户用不用得起"。
不是人人都能当老板，但人人确实都想体验被服务的感觉——这种渴望是真实的，OpenClaw 和 Manus 引发的兴奋也是真实的。但渴望不等于持续付费。FOMO情绪能驱动第一次尝鲜，能不能续上第二个月，还是得回到 ROI。比方说一个月薪一万的程序员，这是税后收入的 14%。他是否愿意拿 14% 的工资"雇"一个 AI 结对编程？如果能帮他多完成一个项目、拿到更多绩效，可能愿意。但一个月薪一万的行政人员呢？Claude Code 对他来说是天书——不是不好用，是这个工具能帮他做的事，在他的岗位上根本转化不成额外收入。

所以从长期看，只有那些有商业模式的高级打工人或管理层是目标用户，他们在模式下，将 AI 塞进去，本质上是用钱雇 AI 省时间，提升产能，最终提升的产能能换来更高额度的回报，ROI＞1。

所以你会发现，现在愿意为 agent 产品持续付费的，是两个条件的交集：在商业链条上有明确的"时间→回报"转化模式，且生产资料在线。越是在价值链顶端，这两个条件越容易同时满足，付费意愿越强。

这么看来，Manus 非常聪明，一上来就瞄准高价值任务，不是看不上普通用户，是**在当前的成本结构下，只有高净值场景的 ROI 才撑得住。**

现在大量自媒体一个劲鼓动普通用户去开 Claude max、ChatGPT pro，说要跟上时代不要吝啬买到就是赚到，在我看来都是在说“何不食肉糜”。

一个从来不写代码的人，不会因为 AI 出现就突然建立起通过代码获取超额回报的模式。一个打工人，也不会因为有了 AI 秘书就突然赚到更多的钱。工具能放大能力，但放大的前提是你本来就有一个"投入时间→产出回报"的正循环。岗位本身没有这个循环，再好的工具也只是让你更快完成了一份固定薪资对应的固定工作量——老板高兴了，你并没有。

【长期图景】

长期来看，AI agent 的定制化服务成本降低一点，ROI 打正的潜在人群就会多一片，当这些人意识到打正的模式后，就能用起来。随着越来越多人用起来，社会效率就会整体提高，蛋糕就能做得更大。AI agent 的效果提升一截，就会有一部分原先只能由人提供的定制化服务变为可以由 AI 提供，商业分工和管理的结构就会被影响，从而搅动社会分工。

【普通人应该怎么应对 AI 这个变量】

目前我认为好的做法是：

1. 用不影响生活的钱去尝试尽可能好的 AI 。所谓不影响生活的钱就是这笔钱哪怕丢水里，你不检查钱包也不会意识到，完全不影响你其他的决策逻辑。
2. 深度使用好的 AI，最起码能做一些咨询吧，免费的豆包、DeepSeek 都能做 deep research，更何况是 SOTA 的 AI agent。
3. 尝试用最好的 AI 节省时间，省下来的时间想更底层的问题；或拓宽能力圈，利用 AI 闭环某个商业单元。前者是纵向，后者是横向。
4. 跟你没关的AI native 产品，天天在社交媒体炸裂也没有必要焦虑，逼自己使用。就好比马斯克把火箭送上太空了，你不必为此焦虑一样。春节前推出的seedance2.0很炸裂，但我深知我用不上，我怎么试，我的个人商业模式也不会因此改变。当你的模式有需要的时候，这些东西都会被你找到的。

2 00

Bink_Ron

7月前

美团的外卖业务到底有没有护城河？

外卖大战开打时，我跟很多人一样，认为淘宝、京东纯给消费者发福利，根本干不动美团，美团干了这么多年积累的用户体验是白干的？这段时间各自财报出来，反映到股价上，阿里、京东股价上涨，美团下跌。显然资本家也不是傻子，肯定是有迹象表明外卖大战，美团式微了。这很反我认知，今天仔细想了想这个问题——美团外卖到底有没有护城河，有的话到底是什么？

一、用户价值构成分析

决定外卖的用户价值的因素：多、快、好、省。我们来从供给端分析，因为需求端显然没有护城河（外卖用户的迁移成本几乎为0）.

多，靠的是强大的地推团队，去一家家谈合作，同时降低接入成本，接入尽可能多的商家。

快，靠的是大规模的骑手团队，以及对骑手团队的管理、赋能，将骑手的调度用到极致。这个一部分是靠招募骑手，一部分是靠精细化的调度算法。

好，靠的是推荐算法。好是因人而异的，不存在绝对意义上的“好”。只要在用户心中，买到了这个价格物超所值的外卖，对用户而言就是好。因此，在有了“多”的基础上，“好”意味着只需要排符合用户偏好的餐馆。

省，靠的是规模效应+精细化运营。在有足够多商家竞争时，商家端自然而然价格就会降下来，这个和线下餐饮逻辑一样。平台拿着抽成，再通过算法精细化补贴用户，构成了第二层低价因素。

所以一分析，“多”是最核心要素，有了多之后，“好”“省”就都有了；其次是“快”。至于骑手的调度算法，商家推荐算法，精细化补贴算法，这些对于京东、淘宝（饿了么）来说，根本不值一提。

那么，美团的“多”和“快”能形成护城河吗？

二、“多”有护城河吗

我记得之前有针对美团、饿了么二选一条款出的反垄断政策，禁止平台要求商家二选一。在有这条政策之前，美团的“多”是有护城河的。因为对商家而言，首次接入外卖平台是最困难的，第二次接入只需要如法炮制即可。但由于美团之前的二选一政策，它通过地推辛辛苦苦打下一家来，这一家如果要接入其他外卖平台，机会成本就是放弃美团，商家肯定不干，因为美团才是大哥。现在想想，反垄断政策一出台，美团估计傻眼了——自己辛辛苦苦打下来的商家，迁移成本居然这么低，这不是纯纯为外卖行业做公益吗？？

商家迁移无法形成护城河，那竞品地推就更容易了，只需要做过本地业务的团队，组织起来，洽谈好合作条款就能接入。

三、“快”有护城河吗？

因为京东、淘宝都是做快递员调度的专家，可以假设大家的调度系统实力相当。在这种情况下，“快”就取决于骑手数量了，骑手越多，自然送货就越快。那花钱不就能招来骑手吗？

这里我觉得，“快”、“多”和营收是有飞轮效应的。“多”带来点餐体验 up → 订单增加，营收增加 → 骑手需求增加，花更多钱招骑手 → 规模扩张吸引更多商家 → 订单、营收增加 → 有钱招更多骑手→ ...

这个增长飞轮是美团有底气招来如此庞大的骑手团队的根本，竞品要想砸钱，需要砸很久，让“多”“订单量”“骑手量”螺旋式增长，形成这个飞轮。如果没有足够多的商家和订单量，只砸钱招骑手是不行的；没有骑手，订单量的增长也是不可持续的，因为收货体验太差。

从这个角度看，“快”其实是有护城河的。因为实现“快”的难度很大，要花很多时间和钱，没有战略性投入的决心，很难打下来。这也是饿了么之前打不动美团的原因吧。

让我想不到的是，阿里动真格了，看清楚了这件事后，真的花够了钱，砸了足够长的时间，把“快”逐渐打下来了。上个月点闪购，我（在深圳南山区）常吃的外卖高峰期配送时长普遍超过70分钟，美团50分钟；这个月居然倒过来了...

四、后面的看点

短期之内，可以认为外卖用户的总量相对固定。需求既然固定，那么，供给就是在内卷，瓜分存量市场。供给的护城河是订单、骑手数量、商家数量形成的飞轮，其中，长期稳定的骑手数量是这个飞轮实力的体现。

阿里现在已经砸了几百亿，基于饿了么能力基础，把这个飞轮砸出来了，订单量和美团倒挂，可见在长期，骑手量也将倒挂。美团如果再想不出有效应对的办法，阿里的增长团队势必进一步迁移美团核心用户群，直到：阿里没钱了，或者美团被干死了。

但我觉得美团不至于被干死，因为美团也不是没钱，无差别补贴70%的用户要花的钱，跟无差别补贴30%的用户要花的钱可不一样。美团一定会不惜代价守住它有能力守住的这部分用户群，最终，我推测，市场瓜分的结果会跟各自钱包（血条）的厚度高度契合。

没做过外卖业务，也是纯外行视角的分析。如果有更懂业务或者内情的，可以一起来聊下。

12 94

Bink_Ron

8月前

昨天看到篇讨论中美 AI SaaS 的公众号文章（mp.weixin.qq.com），对我比较有启发，做了点延伸思考。

它讨论了一个问题：美国头部的 AI+ SaaS 公司，能创造一年上亿美金的 ARR，而中国的 AI SaaS 公司，就基本没有通过国内用户创造1亿（哪怕是 RMB）ARR的。什么原因？

原文关键句摘录如下：
“中美的差异不仅仅服务对象的区别，而是两种底层范式的分歧：中国讲“入口“，美国讲“接口“。
而正是这种路径依赖，构成了当下的分野：
问题在于，AI不是一款能装进App Store的新应用，它是一种“打散路径、压缩流程“的基础能力。在AI的世界里，用户不再从一个App出发，而是从问题出发、从意图出发——直接奔向结果。带来的结果是，入口的价值被不断压缩：从“路径经济“转向“结果经济“，控制用户路径的价值也随之贬值。”

但我觉得讲得还是太抽象了点，我看完想了想，可能这个背后更清晰的逻辑链如下：
1️⃣ 美国的 SaaS 接口生态很强大，大家解决的问题都很细很垂，但各产品接口是打通的，企业按需采购产品；
2️⃣ 中国的 SaaS 讲究抢占入口、汇聚流量，大包大揽地解决问题，干死垂直的 SaaS 产品，然后再寻求增值服务变现。
3️⃣ 而当前，AI 叠加进来后，大包大揽的中国 SaaS 就要面临更复杂的问题，比如钉钉、飞书接了 AI，要考虑 AI 如何打通整个生态，IM、搜索、知识库、项目管理、文档等，并且还不好分别为了 AI 单独收费。要知道，这些板块每一个都能养活美国的一个头部 SaaS 的，比如 Slack（IM）、Glean（搜索/知识库）、Linear（项目管理）、Notion（文档）... 而这些 SaaS 能各自收钱，且 AI 要解的题也要细得多。
4️⃣ 这就相当于，国内的入口级 SaaS，大包大揽，事干得多，钱还不好多收，因为客户很难理解为什么一个产品下的 AI 要反复收费。而美国的 SaaS，由于产品定位清晰、垂直，AI +产品的命题简单，事少钱多。这你让国产SaaS 怎么比...

从这个角度看，国产 SaaS 曾经很难，做小 B要在大厂的夹缝中生存，做大 B 要忍受诸多定开要求。到了 AI 时代，还更难做了，地狱模式下还要解决全球 AI 产品都在探索的新问题：AI 怎么收费。

AI 的商业模式问题目前在全球范围内都没有找到最佳实践。基座模型 API 就像个快速跳动的电表，只要你接了它，你就得按量付电费，基座厂商自己也不例外。

所以，全球当前最主流的订阅制，也没有办法保证自己的收费内 cover用户的需求，cursor、Claude code 都被迫将无限套餐（哪怕$200的天价）方案关停，多档订阅当前的实质其实就是卖 token 包，本质还是按量收费。
但你看看用户的反应，当cursor、Claude code限制使用量后，骂声一片，显然用户很难接受按量付费，核心原因是，现在AI 还不能事事都给出靠谱的解决方案，花了几十美金发现事没做好这让人如何接受？

现在活得好的 AI产品，基本都是传统产品+AI 的类型，AI 融入解决方案中，不会由用户驱动去大量消耗 token，所以订阅费能 cover 成本，逻辑顺畅。原生的、由用户驱动的、任务过程中消耗大量 token 的产品，在订阅制的框架下水土不服，按量收费又不得民心，咋办？
自然而然，大家都会想到，既然用户要的是解决方案，我们就按效果收费，行不行？

逻辑上很make sense，但当前也遇到很多问题：怎么定义效果？谁来定义效果？怎么衡量效果？怎么定价？这里面水很深。

就说定效果，很多订阅制难以 cover 成本的场景都是创作型场景，压根就没有明确的效果指标，更别提衡量了。比如你让 Manus 、DeepResearch AI 给你跑个调研报告，怎么定效果指标来和你的偏好对齐？有的时候，你自己都说不清楚，而且这因人而异。

有些场景确实有可能有客观的、后验的效果指标，比如智能客服的满意度/投诉率，AI 销售的成单率等，但这些场景，决定效果的可能不是 agent，而是运营的经验和 SOP，你说你要按效果收费，他反而不同意。

真正适合按效果收费的场景，目前看下来，少之又少。我看到的约束是：
需求侧：① 效果指标明确且行业能共识；② 效果可衡量；③ agent 能决定效果；④ 容错率高，即效果差导致的损失极低。
供给侧：① 任务所需 token 可控；② 为 agent 定制的能力要有规模效应。

插个题外话：一年半前我还在做数字人的时候，就在探索这个按效果付费的模式。当时切入营销短视频领域，找到了几家营销短视频代运营的上市公司，他们每天都要生产几千条营销短视频，帮客户投到广告平台。

我们当时想谈这个模式：我们免费帮忙定制数字人（形象和拍摄他们安排），他们可以在购买的并发量（成本价）下随意使用产品，最终按投流的消耗量折算一个比例给我们付费，如无消耗可以不付钱，上到 xx 万（参照请演员的固定开支，再低一定的比例）封顶。大概意思就是成本绝不会比之前请演员模式高，按效果付费确保钱不打水漂。当时他们很感兴趣，试了一段时间，后来还是拒绝了我们。原因是，字节的即创横空出世，前期免费用，后期订阅制，量大管饱，成本更低生态更好...

11 12

Bink_Ron

8月前

看了 Deamoy 的 demo，交互思路很惊艳，感觉把 figma AI 的事情做了。

我一直觉得前端 AI 正确的打开方式就是搭建60-70分的结构（AI 也只能做到这个程度），然后人来把结构细节调整到90分，AI 再做整体 UI 上的润色。

当前大多数场景下，人调细节的工作都只能靠嘴说，但靠嘴很难说明白。最理想的方式就是给人提供低门槛的工具，让人先摆弄好结构，然后 AI 也能理解这个摆弄的意图，最后 AI 据此来做润色，完成最后一步。

现在能提供低门槛工具的场景并不多，比如coding 就不行，生图、生视频也不行，可能为数不多有概率做成的就是写作和前端/UI（面向 PM）。但UI 工具要做好并不简单，UI 设计产品+ AI 能力来做这个事情可能会比 AI coding产品+ UI 工具要容易点，因为前者基建更强，或者说有更强的脚手架。

因此，能内测后，我觉得看点是：
1. 给的 UI 工具好不好使，满足用户低成本调整的诉求；
2. AI 能不能理解这个调整，并针对调整来进行后续的调优。

池建强: 所想即所得，零零后做的这个工具有点猛上周玉伯在微信上给我介绍了个朋友，一个非常年轻的 AI 产品团队，还有他们的产品。玉伯说：“你得试试这个，AI 搭独立站点，产品落地页，数据大屏，非常方便，你会喜欢的。他们还在内测阶段，邀请码只发了一点。” 听起来有点“平平无奇古天乐”的意思，我看了下，这个产品叫做 Deamoy AI。打开后我试着说了一句“帮我做一个叫墨问的 AI 问答产品的落地页”。随即，这个产品就像变魔术一样，一帧一帧在我眼前生成出来，功能区，展示元素，颜色自动搭配，排版和设计都已经达到了标准设计师的水准。我看颜色不喜欢，还让它整体换了一套墨问红。多次沟通了调整之后，一个漂亮的产品独立网站就做出来了，十分惊艳。这不是我第一次看到用 AI 做页面生成的工具，但 Deamoy 明显有点不一样。与主流的代码生成工具不同，Deamoy 并不走“生成代码—测试—部署”的传统路线，也不像 Trae SOLO 那样强调从需求拆解到产品上线的全链路自动化。它的着力点在于彻底简化流程，让用户跳过冗长的开发步骤，直接进入所见即所得的搭建体验。你不需要懂设计。页面生成后，用户可以像在 Figma 里拖动组件那样自由调整布局，也可以继续用自然语言与它对话，比如说“把这个按钮调大一些”、“换成黑白配色”、“再加一个登录入口”等等。它会立刻理解你的指令，并实时同步做出修改。在传统的 AI 生成应用的平台上，从生成代码到编译再到预览，往往需要经历一段不短的等待，有时候甚至连出错的原因都难以定位，有时候我们说一句话，AI 就开始回滚重来，非常让人恼火。Deamoy 直接省略了这些中间环节，采用“流式即时渲染”技术，将结果以动态画面的方式实时展现在你眼前。整个过程像搭乐高积木一样自然流畅，没有“要不要先试着运行一下”的犹豫，每一步都清晰可见。就现在的体验而言，这个产品足以让人眼前一亮。这种产品形态，让我对未来的工作方式有了更具体的想象。强烈推荐关注。

1 00

Bink_Ron

8月前

我在看到红牛车队（F1）的时候也想过类似问题，红牛车队能造 F1冠军赛车，还做什么饮料（红牛24年营收$12B），为啥不去造民用车降维打击？相反，搞民用车牛逼的公司（奥迪、宝马、本田等）为什么反而拿不下 F1冠军？

后来想的阶段性结论是，民用车生意成功的关键是精细化运营，是规模效应；F1赛车（包括顶级发动机）成功的关键是突破极限的核心科技。这俩乍一看似乎是上下游关系，或者1和1万的关系，实则玩的根本不是一个游戏。

李奇: 造出了效率比别人高十倍的发动机，为什么不去造汽车，而是卖发动机？

3 00

Bink_Ron

8月前

近期和朋友聊天，听说国内像豆包、元宝、Qwen 等团队近半年都在猛肝产品，加班之狠（甚至有10-1-6.5的传闻）令人咋舌。不禁很好奇国产模型现在进化到啥地步了，就去 APP store 翻了翻元宝、豆包这两个直接的竞品近半年的迭代记录，并对最新产品进行了体验。有一些感受，记录如下。

先是豆包。

1. 豆包确实厉害，既要又要。一方面在追赶 ChatGPT、Claude、Gemini 等 SOTA 模型产品的能力，比如DeepResearch、边想边搜（多轮次检索）、Artifact、AI 播客等。另一方面，在追赶过程中，还保持着自己对产品框架的独特定位。

2. 豆包想得很清楚：移动端要轻便易用，桌面端要 context、要 SOTA。

3. 豆包的移动端 APP 的主场景我认为是轻问答，她鼓励用户有任何小问题，首先想到豆包。字节把豆包 APP 包装成通讯录，制定豆包，可能就是想传达一种感觉——豆包是你最亲密的 AI 伙伴，希望你有事能想到她，给她发消息打电话。

4. 豆包 APP 是我认为全球范围内，从起心动念到开始交互的摩擦最低，交互起来最轻快，体验最丝滑的APP，没有之一。每次打开豆包，直接进到聊天界面，上面是聊天历史方便 call back，如果想开启新话题直接说就好了，不用纠结要不要开个新窗口说。真正和 ChatGPT、Claude、Gemini、grok 等一众产品做出了差异化。

5. 至于语音交互，就更绝了，国内断档领先竞品的存在，拟人化的音色和语气词，超低的延时支持随时说话打断，大量为了流畅沟通而做的优化（包括 prompt 工程、Memory 工程和训练），更绝的是，你还能让豆包唱歌，她并不是在放歌，而是真的唱了，像人一样会走调的… 另外，从设计师可以看出，豆包APP 在极大地鼓励用户使用语音交互，它认为很少有人在手机上会愿意打一堆字，甚至输入框长按都能触发语音输入… 今年过年我给亲戚们安利 AI 产品，最好使的就是豆包，给豆包打几分钟电话示范一下，没有亲戚不心动的。

6. 豆包的桌面端在比较早期就做成了浏览器的形式，比 Dia、fellow 都早。虽然我能够理解如果能打下浏览器的心智，就能拿到大量的桌面时间和桌面端 context，未来大有文章能做，但由于 ChatGPT、Claude、Gemini 太强大了，我至今未能感受到豆包拿着 context 在桌面端做出的差异化体验，除了一点：读论文。我现在100%的论文都会复制到豆包来读，真的吹爆。其实我有 Monica 会员，沉浸式翻译也绑定了 DS 的 API，但前者的对照翻译就很屎，在我看来就是不可用级别，主要是切片策略，一行一行切片，灾难级的上下文理解，还消耗我 token；后者对论文的切片也一样差，且由于接的是 DS，虽然单句的质量稍高，但翻译一篇论文的耗时一言难尽，有的时候等它结果的过程中我英文都读完了才翻译出来… 豆包就不一样了，或者说字节系的产品，文本切片策略都很顶，估计火山有统一的模型来处理，加上豆包翻译的质量和速度，体验顶级。

7. 此外，由于豆包多、快、省外加质量稳定的特点，让我养成了一个习惯：凡是想用大模型干小活，我首先想到就是用豆包客户端。比如想要快速处理一大段的文本格式，快速出个图（改个图），英文纠错，修改小代码格式问题（如 json、mermaid 、xml之类的）。尽管我ChatGPT、Gemini、Monica都能无限使用，但总觉得他们很重很慢，遇上类似上面这些活时，总是下意识开豆包做，可见豆包多、快、省的心智烙印在我心里之深。（PS：豆包的桌面端全局划词插件也是我唯一保留的插件，极好用）

8. 从产品迭代历史来看，我感觉豆包团队的思路就是，认可 ChatGPT、Claude、Gemini等产品在桌面端的用户价值，并坚定跟随，尽可能对标了东西就要青出于蓝，虽整体上很难做全球第一梯队，但必须做国内第一梯队，为国人带来极致的桌面端体验。所以在桌面端，我猜，豆包团队的核心目标就是做国内的 SOTA。

再看元宝。

1. 相比之下，元宝则有点在赶工的味道了。从版本迭代记录看，今年 DS 爆火后开始发力，一直火力全开补全敌有我无的产品能力。比如文档问答，图文 RAG，AI 绘图，智能体，Artifact 这些能力。但看现在 SOTA 模型产品的进度，似乎元宝还有好些前沿的能力要追，比如 DeepResearch，通用任务 agent（自带虚拟机和 computer use 能力），AI 播客…

2. 但追赶之外，元宝似乎没有像豆包那样，找到自己该主张什么独特的用户价值，在自己的框架下追赶，不论是移动端还是桌面端。这么没日没夜加班加点赶工，看起来更像是应激反应，而不是在 bet 什么。

3. 当然，也能看出来，元宝一直在想办法利用腾讯系强大的产品生态做出独特的用户价值，比如打通微信聊天、微信搜一搜、腾讯文档、QQ 音乐。但体验过后，怎么说呢，我能感觉到团队很浮躁。表面上看这有那也有，但看不出产品里有什么独特的心思，连接缺乏深度。

4. 比如作为聊天助手植入到通讯录，却没有利用这个生态，打造出一个体验明显超越豆包、kimi 的使用场景。就拿摘要助手这个曾经的热门场景来说，在微信生态中转篇文章给元宝，竟然不能基于这篇文章连续讨论，甚至不能回跳到元宝 APP 里接着讨论。更不要说转发播客、视频号这种多模态的消息了。

5. 借助微信通讯录这样的资源，本应该轻而易举做到豆包绞尽脑汁做到的事情——打造一个 all in one 的、通讯录里的陪伴者+小助手人设。如果能够好好设计一番，哪怕抄作业，不说迁移豆包的用户吧，也能在微信生态中获得豆包难以覆盖的新客，复刻豆包的主要用户价值。至少当时我看到元宝接入微信通讯录时，我是这么想象的，我相信以腾讯的产品能力，把这个场景吃下来是很轻松的。始料未及的是，没有后文了，元宝就这么放弃了？

6. 近期上线的 QQ 音乐的打通也毫无深度，网易云音乐之前整了个活，把用户近100条收藏音乐导成提示词给 Deepseek进行分析，这种类似的活就该元宝+QQ 音乐来整。作为一个私人助手，在为用户推荐音乐时，最重要的用户价值是要懂用户，能结合用户偏好精准找到用户现在想听的音乐，元宝本可以很容易和 QQ 音乐联手，拿下这个心智，居然也放弃了。去捡了最后一步——推荐音乐→找到音乐这个链路——这一价值芝麻大点的心智。

7. 本以为不用元宝，是因为我不懂他，谁知道了解完，还是没有找到任何用他的理由。他的产品设计，没有给出一个类似豆包一样，令人印象深刻的差异化特征，只是一个劲在追随。潘乱曾经的大作《腾讯没有梦想》里说的问题，今天从元宝的状态看，好像问题依旧存在。

这个容易被 FOMO 驱动的时代，每一个想做成的产品都需要反复思考并清晰地回答一个问题：“我为什么值得被记住。” 豆包似乎逐渐摸到了节奏，元宝好像还没有。

74 1722

Bink_Ron

9月前

这两天 YU7热度退下来，仔细体会了一下小米汽车品牌号召力的源头，也问了两三个下定朋友的想法。我的感觉是，一个准确击中市场核心竞争点的长板+ 市场普遍认可的外观（不管抄不抄）+ 远低于同参数产品的定价 = 小米品牌基石。

不论是曾经的手机还是当前的汽车，好像都遵循这个公式。手机当年（2010年），高性能就是手机最核心的竞争点，只有高端机（3500元+）才配高性能，小米抓住这个点，主打“为发烧而生“，外观贴近最保险的 iPhone，把价格打到1999，塑造了小米手机极致性价比的品牌形象，买到就是赚到，其余的卖点，都是锦上添花，只要不要低于及格线即可。如果没有高性能、好看、便宜这三点，其余的上了天也无法形成小米的品牌竞争力。

现在的小米汽车如法炮制，直接杀到汽车核心竞争力的中心——顶级操控。操控这个词很玄学，它跟太多因素相关，提速、刹车、悬架、转向... 豪车也好、超跑/性能车也好，区别与普通汽车的核心之一就是操控。

但商务级豪车主打舒适，它们的操控不好表达，像劳斯莱斯一样在车上堆红酒杯来表达操控并不严谨，也有夸张成分在，所以目前用户对商务级豪车的普遍印象就是冰箱彩电大沙发+贵，但现在到了电车时代，做冰箱彩电大沙发实在太简单了，所以新势力品牌都扎进去抢这块心智，让冰箱彩电大沙发反而变得廉价了，车企也没有更多办法证明自己和顶级豪车一样舒适，毕竟舒适这个东西，太主观了，且大多数人也没坐过顶级豪车。

跑车/性能车就不同了，他们的操控非常好表达，就是赛道圈速。大马力≠圈速，大马力+极致操控=圈速。性能车、超跑甚至赛车，无非是在改进操控的手段库里选手段罢了，性能车和超跑要上路，所以操控要适应的工况多一点，赛车则可以只针对赛道这一个工况设计操控，甚至连倒挡都不需要。这是小米喜欢解的题目，所以雷军亲自下场带队解题，不惜重金挖法拉利的顶级性能车专家，培养车手，全员考赛照... 最终在一条性能车、跑车殿堂级赛道拿下了那个让传统性能车、跑车及其爱好者惊掉下巴的圈速成绩。这么干净的论证方式，使得至今所有米黑，没有谁能黑得了小米汽车的性能和操控。小米性价比的“性”基本立住了。

至于后面的外观，抄保时捷、法拉利，就更抄iPhone 一样，是求稳的做法。如果不抄，去追求什么革命性的原创创新，反而风险很大，完全没必要。而且，价格要求摆在这里，没有给顶级的原创预算。

小米 SU7和 ultra，就是上述公式奏效的最好证明。在没有先验车主的情况下，一年之内十几二十万年轻人选择无脑冲。小米 YU7是台 SUV，SUV 车主更加求稳，在观望 SU7的一年口碑情况后，发现踏马的，高性能、好看、智能、舒适，质量还好，价格30万左右，口袋里有钱都找不到不买的理由啊，于是有了3分钟20万销量的成绩。
回过去看，如果没有圈速这个干净（手机的跑分就没有那么干净）的考卷，或者小米汽车没有考那么好（毫无争议的性能车最强），可能换成大多数其他条件（比如顶级原创外观、更豪华的配置、实际上的智能第一、实际上的续航第一等），小米汽车都不太可能有今天的成绩。

2 10

Bink_Ron

1年前

如何理解 Anthropic CEO Dario Amodei 说的 “In the next 3 to 6 months, AI is writing 90% of the code”？

最近看到很多圈子都在讨论这个观点，很多非程序员看到这个言论，都对AI 的发展速度感到震惊；但很多程序员也很不屑，觉得是在制造焦虑。到底怎么来看这句话？

我的理解，“AI is writing 90% of the code within 3-6 months” 这句话的意思，可以类比 Auto pilot driving is covering xx% of the miles within 3-6 months。

首先，LLM 对 coding 的提效是毋庸置疑的。就在去年年底，我身边用 AI coding 的程序员还不足5成，看我用cursor 搞出来一点东西，根本都不屑；截止目前，我认识的工程师90%+都用上了这玩意，以前嘲笑我的某些工程师一天到晚跟我说又发现了什么真香的用法。私下里聊天，很明显可以看出，之前定下的排期在工具的加持下，至少可以压缩一半时间。但管理层还没反应过来，所以剩下的时间可以自己搞事情或者摸鱼。

其次，90%的 code 是 AI 写，绝不意味着现在能裁掉90%的程序员。AI 现在最大的问题是，它无法稳固的构建系统，为结果负责，这注定了它只能作为 copilot 帮程序员提效。这也很好理解，自动驾驶哪怕能驾驭99%的高速场景，只要有1%的责任它不能担，系统（监管）就不会允许它完全替代人，这也是之前新能源车企迟迟不敢标 L3而要说 L2.999的原因。

即使是这样，自动驾驶依旧接管了重度使用用户大部分里程（根据去年极越的调研，全国智驾里程渗透率前10%的用户，其平均智驾里程占比高达82%）。但现在，几乎没有司机被替代，不会开车的人（比如我老婆，8年驾照，问我刹车踏板在左边还是右边）依旧不敢上路，滴滴司机数量也没少，只是卷了。

那自动驾驶要什么时候才能真正替代司机？逻辑上看，要么让自动驾驶的成功率接近100%，比如在一个极其理想的环境（道路、立法、物联网等基础设施能营造出一个足够标准化的出行场景；或者直接上天或下水），长尾事故大幅减少；要么有主体能站出来为自己的自动驾驶技术负责。从我一个外行的视角看，大概率是前者，后者无法想象。

类比之下，AI coding 替代程序员逻辑也类似，但由于不是人命关天，没有自动驾驶那么严苛条件。我的判断是：

1. 初级程序员会先减少。未来 coding 的能力越来越强，我认为可能99%的代码都会给他写，人类只设计架构，监督方向，在 AI 跑偏的时候拉回来，为结果负责。程序员的效率提升了，需求量自然就减少了。

2. 未来增量的程序员招聘需求大幅缩减。新公司会根据 AI coding 的新范式设计组织框架，营造理想的任务环境给 Coding Agent 做任务，把非标准化的任务留给人，大幅缩减对程序员的需求。老的大公司反应过来后开始掉头，调整组织、制度，来更好地容纳 Coding Agent 的能力，并开始试点，再度减少招聘需求。

3. 最终，逐渐收敛到一个稳定状态。首席架构师-高级架构师-中级架构师-初级架构师集群形成一个新的组织形态，为 Coding Agents 的交付结果负责。

4. 等到 AGI 真的逐步来临，再一步步缩减架构师需求。

7 02

Bink_Ron

1年前

贴一篇之前在犬校的讨论：为什么大模型摘要看起来这么简单的事情，至今依旧难有标杆产品出现？

这是前段时间对一个问题的回复。问题大意是：
podcast摘要，影视作品总结，好像每个人对摘要的期望都不同。那么，好摘要的评判标准是什么，有没有一个有效公约数，构成好摘要的公认标准？

我的答复是：
要讨论好的摘要的评价标准，就需要先定义清楚摘要的主体和看摘要的人。

有一些主体的摘要应该长什么样子，是在目标群体中达成共识的，比如学术论文的摘要，新闻报道（事件的摘要），这些都有很明确的好的标准，明确的可以进行工业化生产。之所以这个标准能达成共识，我猜一个重要原因可能是读者的阅读目的某种程度上趋于一致，高效、全面了解事实。

但似乎大部分主体的摘要应该是什么样这个问题，并没有标准答案。

首先，文章的类型有很多，不同类型的文章的摘要方式肯定不一样。

其次，不同文章有不同的读者，读者读文章的目的都不同，读者之间对摘要的评价标准肯定也不同。
因此，好摘要的标准必然是因文章类型而已、因目标读者而异的。题主给的播客、电影这种摘要主体，恰好是最复杂的主体——类型多样，读者多样，大概率找不出公认的“最佳“标准作为公约数。

为什么大家觉得阑心一言的播客总结好看，因为大家的画像相似，或者说阑夕写总结面向的读者就是我们，所以他在文章多样性和读者多样性上保住了一头，他只需要考虑怎么将文章/播客总结成我们喜欢的形式即可。就算是这样一件事情，也会因为文章/播客的多样性，导致其没有一套SOP（至少我去翻历史的总结，没有看出来什么规律）。

退一步说，即便是有，也很难把这个规律无损总结出来，期望大模型很容易就能理解。带过实习生应该有感觉，即便一套看似简单的方法交给一个实习生操作，实习生大概率很难看完直接就复刻，需要不断去领会方法论在他的认知体系中的真实含义。所以，这就跑不出对大模型的训练。

而要想有效炼出来这个能力，数据（至少上千吧）、精良的训练方式设计、算力缺一不可。再退一步，假设你有数据、有算力，这个训练方式的探索也有得研究。据我的认知，SFT 是很难搞定这个事情的；RLHF 可能有戏，但也不确定，加上其太费人力（高质量的人），目前成功案例不多；RL最难的地方在于奖励函数的设定，对于这种语言类任务，奖励函数很有可能因设定片面而使得模型效果奇葩。就算炼出来了，搞定的，只是面向足够垂直的读者的一类主体的摘要，roi...

所以，大模型摘要这件事情，我觉得看似简单，实则复杂的一批。

5 00