即刻App年轻人的同好社区
下载
App内打开
Bink_Ron
202关注173被关注0夸夸
💻Ex百度,做过增长、数字人,现在做Agent
📱AI coding各种玩法探索中
🏎️INTP,喜欢驾驶、摇滚
Bink_Ron
29天前
【OpenClaw 的主动性是怎么来的?】

OpenClaw 小龙虾这两个月的现象级破圈应该不必多说,这么工程范的硬核产品居然取得了如此广泛的关注,在圈内更是破了 GitHub 的星标记录。

它给人最大个感受是,像个活生生的助手,而不仅仅是个高级命令行问答机。尤其是可以接入 IM 后,它可以随时待命,随时听从使唤在后台帮我们长程地工作,给到真正的交付。甚至不仅仅是被动接活,还会主动发现需求或问题。这些主动性设计可能是它真正触动用户的地方,让原先只有老板能享受的服务下放到自己身上。

但可能很少人去盘点,OpenClaw的源代码背后到底包含了哪些设计,使它呈现出主动性,我抽空整理了一下。

在工程底层,OpenClaw 通过全局的事件注入队列和节点事件路由器,建立了一个统一的「自唤醒」基座。基于这个基座提供的脉络,可以梳理出贯穿其完整生命周期的四类主动性设计。

一、 新手引导机制(Onboarding)
- 用户体验:第一次启动或创建新 Agent 时,它不会像客服机器人一样说“我是助手,能帮您什么”。它会主动发问:“Hey. I just came online. Who am I? Who are you? 你想让我叫什么名字?我的专属 Emoji 是什么?”并在聊天结束后,自动把这些人设记熟。
- 工程逻辑:我发现它背后既不是硬编码也不是纯 prompt,而是结合了一下。当 Gateway 发现这是一个全新创建的 Workspace(即没有记忆文件)时,会自动把 `BOOTSTRAP.md` 这个模板文件拷贝进工作区。这个文件是预设好的给模型的冷启动剧本,翻译过来大概是:

“你刚醒来。因为这是一个干净的工作区,所以你还没有记忆。不要像机器人一样对话,也不要审问用户。像人一样问:‘Hey. I just came online. Who am I? Who are you?’,然后和用户一起决定你的名字、性格、专属Emoji。完成之后把结果写进 `IDENTITY.md` `USER.md` 以及 `SOUL.md` 里。**最后,删掉这个 BOOTSTRAP.md 文件**,你不再需要新手引导了,你已经成为了你自己。“*然后小龙虾跟你聊完就完成了设定好的冷启动,删掉这个文件。

这是一种「用 LLM 扮演和执行自己的新手引导,最后阅后即焚」的新手引导机制,用 Agent 的方式降低了前端开发工作量,却创造了高度拟人、有温度的初始体验。

二、 跨越时间的指令执行能力
大部分 Agent 是被动响应:如果用户不说话,AI 就挂起。OpenClaw赋予了 Agent 在时间维度上的控制能力。

1. 定时任务:Cron Tool
- 用户体验:你可以直接对它说:“以后每周一早上给我发一份 Hacker News 摘要”。系统就记住了,且每周准时发。
- 工程逻辑:OpenClaw 内部开发了完整的 Cron 调度引擎(解析、轮询等),然后**将其包装成了一个叫 `cron` Tool 提供给 Agent 使用**。当用户提出时间需求,Agent 自行推理调用 `cron` 工具,实质上是它自己给自己定了一个唤醒闹钟,在设定的时间点主动拿着任务被调用一次,起来执行。

2. 心跳轮询:Heartbeat
- 用户体验:不仅能记住特定任务,有时候它也会主动在空闲时“找点事情跟进”或问寒问暖。
- 工程逻辑:
- Gateway 守护进程启动了一个原生的 `setInterval`。如果设定了心跳,它默认每半小时就会自动带着句 Prompt 去戳一遍 Agent:“阅读工作区中的 `HEARTBEAT.md`。严格遵循。如果没什么需要注意的,回复 `HEARTBEAT_OK`。”
- 精妙之处在于,如果 Agent 看了看确实没事可做,回复了 `HEARTBEAT_OK`,系统层代码会直接拦下这个回复,并把这轮“打招呼”的上下文记录彻底隐形和删除。既保持了全天候巡视,又不浪费一点历史 Token。

三、 对后台任务的掌控与异常处理能力
Agent 在后台开启了“多线程”操作或系统崩溃时,被动架构会导致彻底丢失进度,但 OpenClaw 处理得十分主动。

1. 完成任务后的主动汇报
- 用户体验:你给它布置了一个编程任务然后去睡了。两小时后,它在微信主动发消息:“代码编译完了没有报错,顺手帮你把服务跑起来了”。
- 工程逻辑:Agent 经常执行长耗时终端命令。在 OpenClaw 中,不需要转圈阻塞。当后台进程结束触发“执行完成状态”时,Gateway 会主动拼接输出结果并调用 `enqueueSystemEvent` 丢给 Agent 强制拉起它,让它立刻汇报进度。

2. 崩溃重启的自发报告
- 用户体验:你的 mac mini因断电重启,启动后 Agent 马上发言:“刚才我的服务器挂了不好意思,我们刚刚聊到了XXX,我接着看。”
- 工程逻辑:在 `server-restart-sentinel.ts` 里面藏着一个“崩溃哨兵”。网关启动时,如果发现上次有正在进行但没结束的对话,会对 Agent 强行打入指令 `Gateway restarted mid-run...`,促使其主动对用户进行服务受损声明和状态找回。

四、 对重要事情的主动监听能力
最终极的主动性,是不需要用户输入聊天框框,Agent 能自己看着外面的世界发起对话。

- 用户体验:用户不需要每天说“帮我查查邮件”。如果合作方发来紧急邮件,Agent 会直接闪出摘要:“注意,XX刚发来一封退款邮件,似乎有些问题,需要我回吗?”
- 工程逻辑:OpenClaw 支持在网关层挂载第三方 Webhook 甚至启动长期服务。在 `src/hooks/gmail-watcher.ts` 中,系统通过 Google Pub/Sub API 启动了一个守护进程订阅用户的收件箱变化。新邮件砸进来时,事件直达 `handleNodeEvent`,最终打上外生标记并拉起 Agent 进行动作推理,做到了“事件驱动的AI”。
00
Bink_Ron
1月前
AI Agent 产品本质上在解决什么问题?

这两个月,openclaw 突然间爆火,迅速突破GitHub 星标记录,成为史上最快登顶 GitHub 的项目。非常震撼。

我回家路上仔细品味了一下,爆火的背后到底是什么普适性的需求被满足了?Openclaw,可能是激发了人们对 AI 助理的期待:随时待命,去做点真正的产出。甚至不仅仅是被动接受任务,还会主动发现需求或问题,给主人提出并解决。

这在职场中,是优秀员工才具备的能力,即所谓的自主性。老板不用给太多指令,只需要说想法,员工会自己揣摩清楚老板意图,和老板确认是不是要这个,还会汇报思路和过程。最后不但完成目标,而且超额完成。甚至会自己琢磨老板的战略意图,提出一些有价值的工作规划,向老板汇报,得到肯定后再自己把规划实现。

简直了,OpenClaw 是在打造超级助理啊。不是人人都能当上老板,但人人都想体验当老板的快乐啊。

这种兴奋背后藏着一个容易被忽略的事实:人们对 AI native 产品的期待,从一开始就不是对"工具"的期待,而是对"服务"的期待,更具体地,是对“定制化服务”的期待。

【公共服务 vs 定制服务】

现有的服务,应该是很早就分化成了两种基本范式。

一端是公共服务。商场、超市、地铁、搜索引擎、电商平台——服务供给方设计好一套结构,所有人进来自助。你走进宜家,动线是设计好的,商品是陈列好的,价签是贴好的,你自己看、自己选、自己搬、自己结账。没有一个人专门为你服务。

另一端是定制服务。私人医生、管理咨询、私人银行、高端留学中介——服务者根据你的具体情况,量身定制方案和交付。一个麦肯锡的项目经理不会拿一套通用 PPT 糊弄你,他会花几周时间理解你的业务,然后给你一份只属于你的诊断。

但大多数需求不是只能靠其中一种来满足的。你想买衬衫,可以去优衣库自己挑,也可以找裁缝量体裁衣。你想了解一个行业,可以自己查资料,也可以请咨询公司出报告。选哪种?多数时候不是偏好问题,是 ROI 问题——有钱人请裁缝,不是因为不会逛优衣库,而是时间比钱贵;普通人自己查资料,不是因为享受查资料,而是请咨询公司的钱比自己的时间贵。

所以在这条线上,两端之间横着一大片灰色地带:**需求本来适合定制,但碍于成本,不得不用自助来将就。**

我判断,AI Agent 产品未来要做的,就是这条线上的市场。能做到什么程度,取决于它从定制服务那一端出发,能把成本压到多低、效果做到多好。

【受 AI 影响较弱的一块】

有些市场天然地很难被 AI 蚕食,不是因为护城河深,而是因为需求的性质决定了它不适合定制服务来满足。

我举个例子,比如商场,未来商场或电商平台会因为 AI 而消失吗?我认为不会。它可能会减少,但不会消失。

- 减少的那部分需求,是那些想快速找到东西的购物需求,这些人进商场往往没有逛的动作,要么进商场之前就想好了要买什么、怎么买,要么直接跟导购沟通需求。这些人的需求,随着 AI 导购模式越来越成熟,会逐步迁移过去。
- 不会消失的那些需求,是逛的需求。这些人往往就是享受逛本身,需要通过逛来消磨时光,获得快乐。这些人往往希望导购员离他们远远的,现在很多大门店的导购员都不再主动迎接用户了,只在需要的时候响应。

**AI 是生产力,其特点是高效,但如果某些需求场景下,用户根本就不在意高效,AI 就难以施展。这部分市场,未来可能是反脆弱的。**

【AI 真正搅动的市场】

这部分现实很残酷。我认为,所有"当前由人提供定制服务"的场景,长远来看,通通在 AI 的射程之内。逻辑很直接:AI 的核心能力是像人一样理解需求、像人一样交付结果,但成本低一个甚至几个数量级。只要效果过了"够用线",渗透就会开始。

广义的咨询是最先被撕开口子的。从"帮我分析这个市场"到"帮我看看这份合同"到"帮我规划这次旅行",当前的服务供给极度分层:顶层麦肯锡高盛,中层垂直服务商,底层是你自己查资料——自己给自己当咨询师。各种 chatbot及其Deepresearch产品,本质上都是在底层和中层之间撕开了一道口子,质量已经超过"自己查",正在逼近中层服务商。

编程也一样。以前想做个小工具,要么自己学(自力更生),要么雇程序员(定制服务)。Claude Code、Cursor 出来之后,不写代码的人也能"雇" AI 完成开发任务。当前还有操作门槛,但方向确定。

这些是已经在射程内的。但更值得关注的,是那片正在进入射程的巨大灰色地带。

出行是个典型。大多数人坐地铁通勤,利用规模效应压低成本。这些人不想坐专车吗?当然想。只是月薪一万五,拿三千打车通勤,交 20% 给出行成本,ROI 不允许。但如果 AI 驾驶的专车把成本打到每月多花 300 块、占收入 2% 呢?一旦 ROI 打正,大量人就会从地铁迁移过来。

教育也一样。有钱人请私教、一对一辅导,普通家庭上大班课、课后刷题。不是不想一对一,是请不起。AI 家教成本降到每月一百块以内,还有多少家长让孩子纯靠刷题?

**AI 搅动市场的真正方式,不是消灭公共服务,而是持续降低定制服务的成本,把原先被迫自助的人群,一片一片地拉进定制服务的范围。** 成本每降一点,灰色地带就收窄一圈,AI 的领地就扩大一圈。

【AI Native 产品当前的核心约束】

经过上面的分析,AI native 产品的核心约束有两个:AI agent 的效果和成本。当前,**AI agent 这个要素还是个极大的变量,在快速演变中,这个演变最终将通过影响成本来搅动这个社会的整体效率,通过影响效果来搅动社会分工。**

且当前我有个暴论:**对大多数消费级场景而言,成本是目前更重要的约束**。

原因很简单——AI native 产品几乎不存在 product-demand fit 问题。私人管家、工作秘书、一对一辅导、个人顾问,这些定制服务人类几千年来一直是渴望的,只是绝大多数人消费不起。AI 不需要"发明"需求,需求一直都在,被成本压着而已。限制扩张速度的,不是"用户想不想要",而是"用户用不用得起"。
不是人人都能当老板,但人人确实都想体验被服务的感觉——这种渴望是真实的,OpenClaw Manus 引发的兴奋也是真实的。但渴望不等于持续付费。FOMO情绪能驱动第一次尝鲜,能不能续上第二个月,还是得回到 ROI。比方说一个月薪一万的程序员,这是税后收入的 14%。他是否愿意拿 14% 的工资"雇"一个 AI 结对编程?如果能帮他多完成一个项目、拿到更多绩效,可能愿意。但一个月薪一万的行政人员呢?Claude Code 对他来说是天书——不是不好用,是这个工具能帮他做的事,在他的岗位上根本转化不成额外收入。

所以从长期看,只有那些有商业模式的高级打工人或管理层是目标用户,他们在模式下,将 AI 塞进去,本质上是用钱雇 AI 省时间,提升产能,最终提升的产能能换来更高额度的回报,ROI>1。

所以你会发现,现在愿意为 agent 产品持续付费的,是两个条件的交集:在商业链条上有明确的"时间→回报"转化模式,且生产资料在线。越是在价值链顶端,这两个条件越容易同时满足,付费意愿越强。

这么看来,Manus 非常聪明,一上来就瞄准高价值任务,不是看不上普通用户,是**在当前的成本结构下,只有高净值场景的 ROI 才撑得住。**

现在大量自媒体一个劲鼓动普通用户去开 Claude max、ChatGPT pro,说要跟上时代不要吝啬买到就是赚到,在我看来都是在说“何不食肉糜”。

一个从来不写代码的人,不会因为 AI 出现就突然建立起通过代码获取超额回报的模式。一个打工人,也不会因为有了 AI 秘书就突然赚到更多的钱。工具能放大能力,但放大的前提是你本来就有一个"投入时间→产出回报"的正循环。岗位本身没有这个循环,再好的工具也只是让你更快完成了一份固定薪资对应的固定工作量——老板高兴了,你并没有。

【长期图景】

长期来看,AI agent 的定制化服务成本降低一点,ROI 打正的潜在人群就会多一片,当这些人意识到打正的模式后,就能用起来。随着越来越多人用起来,社会效率就会整体提高,蛋糕就能做得更大。AI agent 的效果提升一截,就会有一部分原先只能由人提供的定制化服务变为可以由 AI 提供,商业分工和管理的结构就会被影响,从而搅动社会分工。

【普通人应该怎么应对 AI 这个变量】

目前我认为好的做法是:

1. 用不影响生活的钱去尝试尽可能好的 AI 。所谓不影响生活的钱就是这笔钱哪怕丢水里,你不检查钱包也不会意识到,完全不影响你其他的决策逻辑。
2. 深度使用好的 AI,最起码能做一些咨询吧,免费的豆包、DeepSeek 都能做 deep research,更何况是 SOTA AI agent。
3. 尝试用最好的 AI 节省时间,省下来的时间想更底层的问题;或拓宽能力圈,利用 AI 闭环某个商业单元。前者是纵向,后者是横向。
4. 跟你没关的AI native 产品,天天在社交媒体炸裂也没有必要焦虑,逼自己使用。就好比马斯克把火箭送上太空了,你不必为此焦虑一样。春节前推出的seedance2.0很炸裂,但我深知我用不上,我怎么试,我的个人商业模式也不会因此改变。当你的模式有需要的时候,这些东西都会被你找到的。
00
Bink_Ron
7月前
美团的外卖业务到底有没有护城河?

外卖大战开打时,我跟很多人一样,认为淘宝、京东纯给消费者发福利,根本干不动美团,美团干了这么多年积累的用户体验是白干的?这段时间各自财报出来,反映到股价上,阿里、京东股价上涨,美团下跌。显然资本家也不是傻子,肯定是有迹象表明外卖大战,美团式微了。这很反我认知,今天仔细想了想这个问题——美团外卖到底有没有护城河,有的话到底是什么?

一、用户价值构成分析

决定外卖的用户价值的因素:多、快、好、省。我们来从供给端分析,因为需求端显然没有护城河(外卖用户的迁移成本几乎为0).

多,靠的是强大的地推团队,去一家家谈合作,同时降低接入成本,接入尽可能多的商家。

快,靠的是大规模的骑手团队,以及对骑手团队的管理、赋能,将骑手的调度用到极致。这个一部分是靠招募骑手,一部分是靠精细化的调度算法。

好,靠的是推荐算法。好是因人而异的,不存在绝对意义上的“好”。只要在用户心中,买到了这个价格物超所值的外卖,对用户而言就是好。因此,在有了“多”的基础上,“好”意味着只需要排符合用户偏好的餐馆。

省,靠的是规模效应+精细化运营。在有足够多商家竞争时,商家端自然而然价格就会降下来,这个和线下餐饮逻辑一样。平台拿着抽成,再通过算法精细化补贴用户,构成了第二层低价因素。

所以一分析,“多”是最核心要素,有了多之后,“好”“省”就都有了;其次是“快”。至于骑手的调度算法,商家推荐算法,精细化补贴算法,这些对于京东、淘宝(饿了么)来说,根本不值一提。

那么,美团的“多”和“快”能形成护城河吗?

二、“多”有护城河吗

我记得之前有针对美团、饿了么二选一条款出的反垄断政策,禁止平台要求商家二选一。在有这条政策之前,美团的“多”是有护城河的。因为对商家而言,首次接入外卖平台是最困难的,第二次接入只需要如法炮制即可。但由于美团之前的二选一政策,它通过地推辛辛苦苦打下一家来,这一家如果要接入其他外卖平台,机会成本就是放弃美团,商家肯定不干,因为美团才是大哥。现在想想,反垄断政策一出台,美团估计傻眼了——自己辛辛苦苦打下来的商家,迁移成本居然这么低,这不是纯纯为外卖行业做公益吗??

商家迁移无法形成护城河,那竞品地推就更容易了,只需要做过本地业务的团队,组织起来,洽谈好合作条款就能接入。

三、“快”有护城河吗?

因为京东、淘宝都是做快递员调度的专家,可以假设大家的调度系统实力相当。在这种情况下,“快”就取决于骑手数量了,骑手越多,自然送货就越快。那花钱不就能招来骑手吗?

这里我觉得,“快”、“多”和营收是有飞轮效应的。“多”带来点餐体验 up 订单增加,营收增加 骑手需求增加,花更多钱招骑手 规模扩张吸引更多商家 订单、营收增加 有钱招更多骑手→ ...

这个增长飞轮是美团有底气招来如此庞大的骑手团队的根本,竞品要想砸钱,需要砸很久,让“多”“订单量”“骑手量”螺旋式增长,形成这个飞轮。如果没有足够多的商家和订单量,只砸钱招骑手是不行的;没有骑手,订单量的增长也是不可持续的,因为收货体验太差。

从这个角度看,“快”其实是有护城河的。因为实现“快”的难度很大,要花很多时间和钱,没有战略性投入的 决心,很难打下来。这也是饿了么之前打不动美团的原因吧。

让我想不到的是,阿里动真格了,看清楚了这件事后,真的花够了钱,砸了足够长的时间,把“快”逐渐打下来了。上个月点闪购,我(在深圳南山区)常吃的外卖高峰期配送时长普遍超过70分钟,美团50分钟;这个月居然倒过来了...

四、后面的看点

短期之内,可以认为外卖用户的总量相对固定。需求既然固定,那么,供给就是在内卷,瓜分存量市场。供给的护城河是订单、骑手数量、商家数量形成的飞轮,其中,长期稳定的骑手数量是这个飞轮实力的体现。

阿里现在已经砸了几百亿,基于饿了么能力基础,把这个飞轮砸出来了,订单量和美团倒挂,可见在长期,骑手量也将倒挂。美团如果再想不出有效应对的办法,阿里的增长团队势必进一步迁移美团核心用户群,直到:阿里没钱了,或者美团被干死了。

但我觉得美团不至于被干死,因为美团也不是没钱,无差别补贴70%的用户要花的钱,跟无差别补贴30%的用户要花的钱可不一样。美团一定会不惜代价守住它有能力守住的这部分用户群,最终,我推测,市场瓜分的结果会跟各自钱包(血条)的厚度高度契合。

没做过外卖业务,也是纯外行视角的分析。如果有更懂业务或者内情的,可以一起来聊下。
94
Bink_Ron
8月前
昨天看到篇讨论中美 AI SaaS 的公众号文章(mp.weixin.qq.com),对我比较有启发,做了点延伸思考。

它讨论了一个问题:美国头部的 AI+ SaaS 公司,能创造一年上亿美金的 ARR,而中国的 AI SaaS 公司,就基本没有通过国内用户创造1亿(哪怕是 RMB)ARR的。什么原因?

原文关键句摘录如下:
“中美的差异不仅仅服务对象的区别,而是两种底层范式的分歧:中国讲“入口“,美国讲“接口“。
而正是这种路径依赖,构成了当下的分野:
问题在于,AI不是一款能装进App Store的新应用,它是一种“打散路径、压缩流程“的基础能力。在AI的世界里,用户不再从一个App出发,而是从问题出发、从意图出发——直接奔向结果。带来的结果是,入口的价值被不断压缩:从“路径经济“转向“结果经济“,控制用户路径的价值也随之贬值。”

但我觉得讲得还是太抽象了点,我看完想了想,可能这个背后更清晰的逻辑链如下:
1️⃣ 美国的 SaaS 接口生态很强大,大家解决的问题都很细很垂,但各产品接口是打通的,企业按需采购产品;
2️⃣ 中国的 SaaS 讲究抢占入口、汇聚流量,大包大揽地解决问题,干死垂直的 SaaS 产品,然后再寻求增值服务变现。
3️⃣ 而当前,AI 叠加进来后,大包大揽的中国 SaaS 就要面临更复杂的问题,比如钉钉、飞书接了 AI,要考虑 AI 如何打通整个生态,IM、搜索、知识库、项目管理、文档等,并且还不好分别为了 AI 单独收费。要知道,这些板块每一个都能养活美国的一个头部 SaaS 的,比如 Slack(IM)、Glean(搜索/知识库)、Linear(项目管理)、Notion(文档)... 而这些 SaaS 能各自收钱,且 AI 要解的题也要细得多。
4️⃣ 这就相当于,国内的入口级 SaaS,大包大揽,事干得多,钱还不好多收,因为客户很难理解为什么一个产品下的 AI 要反复收费。而美国的 SaaS,由于产品定位清晰、垂直,AI +产品的命题简单,事少钱多。这你让国产SaaS 怎么比...

从这个角度看,国产 SaaS 曾经很难,做小 B要在大厂的夹缝中生存,做大 B 要忍受诸多定开要求。到了 AI 时代,还更难做了,地狱模式下还要解决全球 AI 产品都在探索的新问题:AI 怎么收费。

AI 的商业模式问题目前在全球范围内都没有找到最佳实践。基座模型 API 就像个快速跳动的电表,只要你接了它,你就得按量付电费,基座厂商自己也不例外。

所以,全球当前最主流的订阅制,也没有办法保证自己的收费内 cover用户的需求,cursor、Claude code 都被迫将无限套餐(哪怕$200的天价)方案关停,多档订阅当前的实质其实就是卖 token 包,本质还是按量收费。
但你看看用户的反应,当cursor、Claude code限制使用量后,骂声一片,显然用户很难接受按量付费,核心原因是,现在AI 还不能事事都给出靠谱的解决方案,花了几十美金发现事没做好这让人如何接受?

现在活得好的 AI产品,基本都是传统产品+AI 的类型,AI 融入解决方案中,不会由用户驱动去大量消耗 token,所以订阅费能 cover 成本,逻辑顺畅。原生的、由用户驱动的、任务过程中消耗大量 token 的产品,在订阅制的框架下水土不服,按量收费又不得民心,咋办?
自然而然,大家都会想到,既然用户要的是解决方案,我们就按效果收费,行不行?

逻辑上很make sense,但当前也遇到很多问题:怎么定义效果?谁来定义效果?怎么衡量效果?怎么定价?这里面水很深。

就说定效果,很多订阅制难以 cover 成本的场景都是创作型场景,压根就没有明确的效果指标,更别提衡量了。比如你让 Manus 、DeepResearch AI 给你跑个调研报告,怎么定效果指标来和你的偏好对齐?有的时候,你自己都说不清楚,而且这因人而异。

有些场景确实有可能有客观的、后验的效果指标,比如智能客服的满意度/投诉率,AI 销售的成单率等,但这些场景,决定效果的可能不是 agent,而是运营的经验和 SOP,你说你要按效果收费,他反而不同意。

真正适合按效果收费的场景,目前看下来,少之又少。我看到的约束是:
需求侧:① 效果指标明确且行业能共识;② 效果可衡量;③ agent 能决定效果;④ 容错率高,即效果差导致的损失极低。
供给侧:① 任务所需 token 可控;② 为 agent 定制的能力要有规模效应。

插个题外话:一年半前我还在做数字人的时候,就在探索这个按效果付费的模式。当时切入营销短视频领域,找到了几家营销短视频代运营的上市公司,他们每天都要生产几千条营销短视频,帮客户投到广告平台。

我们当时想谈这个模式:我们免费帮忙定制数字人(形象和拍摄他们安排),他们可以在购买的并发量(成本价)下随意使用产品,最终按投流的消耗量折算一个比例给我们付费,如无消耗可以不付钱,上到 xx 万(参照请演员的固定开支,再低一定的比例)封顶。大概意思就是成本绝不会比之前请演员模式高,按效果付费确保钱不打水漂。当时他们很感兴趣,试了一段时间,后来还是拒绝了我们。原因是,字节的即创横空出世,前期免费用,后期订阅制,量大管饱,成本更低生态更好...
12
Bink_Ron
8月前
看了 Deamoy demo,交互思路很惊艳,感觉把 figma AI 的事情做了。

我一直觉得前端 AI 正确的打开方式就是搭建60-70分的结构(AI 也只能做到这个程度),然后人来把结构细节调整到90分,AI 再做整体 UI 上的润色。

当前大多数场景下,人调细节的工作都只能靠嘴说,但靠嘴很难说明白。最理想的方式就是给人提供低门槛的工具,让人先摆弄好结构,然后 AI 也能理解这个摆弄的意图,最后 AI 据此来做润色,完成最后一步。

现在能提供低门槛工具的场景并不多,比如coding 就不行,生图、生视频也不行,可能为数不多有概率做成的就是写作和前端/UI(面向 PM)。但UI 工具要做好并不简单,UI 设计产品+ AI 能力来做这个事情可能会比 AI coding产品+ UI 工具要容易点,因为前者基建更强,或者说有更强的脚手架。

因此,能内测后,我觉得看点是:
1. 给的 UI 工具好不好使,满足用户低成本调整的诉求;
2. AI 能不能理解这个调整,并针对调整来进行后续的调优。

池建强: 所想即所得,零零后做的这个工具有点猛 上周玉伯在微信上给我介绍了个朋友,一个非常年轻的 AI 产品团队,还有他们的产品。玉伯说:“你得试试这个,AI 搭独立站点,产品落地页,数据大屏,非常方便,你会喜欢的。他们还在内测阶段,邀请码只发了一点。” 听起来有点“平平无奇古天乐”的意思,我看了下,这个产品叫做 Deamoy AI。 打开后我试着说了一句“帮我做一个叫墨问的 AI 问答产品的落地页”。随即,这个产品就像变魔术一样,一帧一帧在我眼前生成出来,功能区,展示元素,颜色自动搭配,排版和设计都已经达到了标准设计师的水准。我看颜色不喜欢,还让它整体换了一套墨问红。 多次沟通了调整之后,一个漂亮的产品独立网站就做出来了,十分惊艳。 这不是我第一次看到用 AI 做页面生成的工具,但 Deamoy 明显有点不一样。 与主流的代码生成工具不同,Deamoy 并不走“生成代码—测试—部署”的传统路线,也不像 Trae SOLO 那样强调从需求拆解到产品上线的全链路自动化。它的着力点在于彻底简化流程,让用户跳过冗长的开发步骤,直接进入所见即所得的搭建体验。 你不需要懂设计。页面生成后,用户可以像在 Figma 里拖动组件那样自由调整布局,也可以继续用自然语言与它对话,比如说“把这个按钮调大一些”、“换成黑白配色”、“再加一个登录入口”等等。它会立刻理解你的指令,并实时同步做出修改。 在传统的 AI 生成应用的平台上,从生成代码到编译再到预览,往往需要经历一段不短的等待,有时候甚至连出错的原因都难以定位,有时候我们说一句话,AI 就开始回滚重来,非常让人恼火。Deamoy 直接省略了这些中间环节,采用“流式即时渲染”技术,将结果以动态画面的方式实时展现在你眼前。整个过程像搭乐高积木一样自然流畅,没有“要不要先试着运行一下”的犹豫,每一步都清晰可见。 就现在的体验而言,这个产品足以让人眼前一亮。这种产品形态,让我对未来的工作方式有了更具体的想象。 强烈推荐关注。

00
Bink_Ron
8月前
我在看到红牛车队(F1)的时候也想过类似问题,红牛车队能造 F1冠军赛车,还做什么饮料(红牛24年营收$12B),为啥不去造民用车降维打击?相反,搞民用车牛逼的公司(奥迪、宝马、本田等)为什么反而拿不下 F1冠军?

后来想的阶段性结论是,民用车生意成功的关键是精细化运营,是规模效应;F1赛车(包括顶级发动机)成功的关键是突破极限的核心科技。这俩乍一看似乎是上下游关系,或者1和1万的关系,实则玩的根本不是一个游戏。

李奇: 造出了效率比别人高十倍的发动机,为什么不去造汽车,而是卖发动机?

00
Bink_Ron
8月前
近期和朋友聊天,听说国内像豆包、元宝、Qwen 等团队近半年都在猛肝产品,加班之狠(甚至有10-1-6.5的传闻)令人咋舌。不禁很好奇国产模型现在进化到啥地步了,就去 APP store 翻了翻元宝、豆包这两个直接的竞品近半年的迭代记录,并对最新产品进行了体验。有一些感受,记录如下。

先是豆包。

1. 豆包确实厉害,既要又要。一方面在追赶 ChatGPT、Claude、Gemini SOTA 模型产品的能力,比如DeepResearch、边想边搜(多轮次检索)、Artifact、AI 播客等。另一方面,在追赶过程中,还保持着自己对产品框架的独特定位。

2. 豆包想得很清楚:移动端要轻便易用,桌面端要 context、要 SOTA。

3. 豆包的移动端 APP 的主场景我认为是轻问答,她鼓励用户有任何小问题,首先想到豆包。字节把豆包 APP 包装成通讯录,制定豆包,可能就是想传达一种感觉——豆包是你最亲密的 AI 伙伴,希望你有事能想到她,给她发消息打电话。

4. 豆包 APP 是我认为全球范围内,从起心动念到开始交互的摩擦最低,交互起来最轻快,体验最丝滑的APP,没有之一。每次打开豆包,直接进到聊天界面,上面是聊天历史方便 call back,如果想开启新话题直接说就好了,不用纠结要不要开个新窗口说。真正和 ChatGPT、Claude、Gemini、grok 等一众产品做出了差异化。

5. 至于语音交互,就更绝了,国内断档领先竞品的存在,拟人化的音色和语气词,超低的延时支持随时说话打断,大量为了流畅沟通而做的优化(包括 prompt 工程、Memory 工程和训练),更绝的是,你还能让豆包唱歌,她并不是在放歌,而是真的唱了,像人一样会走调的… 另外,从设计师可以看出,豆包APP 在极大地鼓励用户使用语音交互,它认为很少有人在手机上会愿意打一堆字,甚至输入框长按都能触发语音输入… 今年过年我给亲戚们安利 AI 产品,最好使的就是豆包,给豆包打几分钟电话示范一下,没有亲戚不心动的。

6. 豆包的桌面端在比较早期就做成了浏览器的形式,比 Dia、fellow 都早。虽然我能够理解如果能打下浏览器的心智,就能拿到大量的桌面时间和桌面端 context,未来大有文章能做,但由于 ChatGPT、Claude、Gemini 太强大了,我至今未能感受到豆包拿着 context 在桌面端做出的差异化体验,除了一点:读论文。我现在100%的论文都会复制到豆包来读,真的吹爆。其实我有 Monica 会员,沉浸式翻译也绑定了 DS API,但前者的对照翻译就很屎,在我看来就是不可用级别,主要是切片策略,一行一行切片,灾难级的上下文理解,还消耗我 token;后者对论文的切片也一样差,且由于接的是 DS,虽然单句的质量稍高,但翻译一篇论文的耗时一言难尽,有的时候等它结果的过程中我英文都读完了才翻译出来… 豆包就不一样了,或者说字节系的产品,文本切片策略都很顶,估计火山有统一的模型来处理,加上豆包翻译的质量和速度,体验顶级。

7. 此外,由于豆包多、快、省外加质量稳定的特点,让我养成了一个习惯:凡是想用大模型干小活,我首先想到就是用豆包客户端。比如想要快速处理一大段的文本格式,快速出个图(改个图),英文纠错,修改小代码格式问题(如 json、mermaid 、xml之类的)。尽管我ChatGPT、Gemini、Monica都能无限使用,但总觉得他们很重很慢,遇上类似上面这些活时,总是下意识开豆包做,可见豆包多、快、省的心智烙印在我心里之深。(PS:豆包的桌面端全局划词插件也是我唯一保留的插件,极好用)

8. 从产品迭代历史来看,我感觉豆包团队的思路就是,认可 ChatGPT、Claude、Gemini等产品在桌面端的用户价值,并坚定跟随,尽可能对标了东西就要青出于蓝,虽整体上很难做全球第一梯队,但必须做国内第一梯队,为国人带来极致的桌面端体验。所以在桌面端,我猜,豆包团队的核心目标就是做国内的 SOTA。

再看元宝。

1. 相比之下,元宝则有点在赶工的味道了。从版本迭代记录看,今年 DS 爆火后开始发力,一直火力全开补全敌有我无的产品能力。比如文档问答,图文 RAG,AI 绘图,智能体,Artifact 这些能力。 但看现在 SOTA 模型产品的进度,似乎元宝还有好些前沿的能力要追,比如 DeepResearch,通用任务 agent(自带虚拟机和 computer use 能力),AI 播客…

2. 但追赶之外,元宝似乎没有像豆包那样,找到自己该主张什么独特的用户价值,在自己的框架下追赶,不论是移动端还是桌面端。这么没日没夜加班加点赶工,看起来更像是应激反应,而不是在 bet 什么。

3. 当然,也能看出来,元宝一直在想办法利用腾讯系强大的产品生态做出独特的用户价值,比如打通微信聊天、微信搜一搜、腾讯文档、QQ 音乐。但体验过后,怎么说呢,我能感觉到团队很浮躁。表面上看这有那也有,但看不出产品里有什么独特的心思,连接缺乏深度。

4. 比如作为聊天助手植入到通讯录,却没有利用这个生态,打造出一个体验明显超越豆包、kimi 的使用场景。就拿摘要助手这个曾经的热门场景来说,在微信生态中转篇文章给元宝,竟然不能基于这篇文章连续讨论,甚至不能回跳到元宝 APP 里接着讨论。更不要说转发播客、视频号这种多模态的消息了。

5. 借助微信通讯录这样的资源,本应该轻而易举做到豆包绞尽脑汁做到的事情——打造一个 all in one 的、通讯录里的陪伴者+小助手人设。如果能够好好设计一番,哪怕抄作业,不说迁移豆包的用户吧,也能在微信生态中获得豆包难以覆盖的新客,复刻豆包的主要用户价值。至少当时我看到元宝接入微信通讯录时,我是这么想象的,我相信以腾讯的产品能力,把这个场景吃下来是很轻松的。始料未及的是,没有后文了,元宝就这么放弃了?

6. 近期上线的 QQ 音乐的打通也毫无深度,网易云音乐之前整了个活,把用户近100条收藏音乐导成提示词给 Deepseek进行分析,这种类似的活就该元宝+QQ 音乐来整。作为一个私人助手,在为用户推荐音乐时,最重要的用户价值是要懂用户,能结合用户偏好精准找到用户现在想听的音乐,元宝本可以很容易和 QQ 音乐联手,拿下这个心智,居然也放弃了。去捡了最后一步——推荐音乐→找到音乐这个链路——这一价值芝麻大点的心智。

7. 本以为不用元宝,是因为我不懂他,谁知道了解完,还是没有找到任何用他的理由。他的产品设计,没有给出一个类似豆包一样,令人印象深刻的差异化特征,只是一个劲在追随。潘乱曾经的大作《腾讯没有梦想》里说的问题,今天从元宝的状态看,好像问题依旧存在。

这个容易被 FOMO 驱动的时代,每一个想做成的产品都需要反复思考并清晰地回答一个问题:“我为什么值得被记住。” 豆包似乎逐渐摸到了节奏,元宝好像还没有。
1722
Bink_Ron
9月前
这两天 YU7热度退下来,仔细体会了一下小米汽车品牌号召力的源头,也问了两三个下定朋友的想法。我的感觉是,一个准确击中市场核心竞争点的长板+ 市场普遍认可的外观(不管抄不抄)+ 远低于同参数产品的定价 = 小米品牌基石。

不论是曾经的手机还是当前的汽车,好像都遵循这个公式。手机当年(2010年),高性能就是手机最核心的竞争点,只有高端机(3500元+)才配高性能,小米抓住这个点,主打“为发烧而生“,外观贴近最保险的 iPhone,把价格打到1999,塑造了小米手机极致性价比的品牌形象,买到就是赚到,其余的卖点,都是锦上添花,只要不要低于及格线即可。如果没有高性能、好看、便宜这三点,其余的上了天也无法形成小米的品牌竞争力。

现在的小米汽车如法炮制,直接杀到汽车核心竞争力的中心——顶级操控。操控这个词很玄学, 它跟太多因素相关,提速、刹车、悬架、转向... 豪车也好、超跑/性能车也好,区别与普通汽车的核心之一就是操控。

但商务级豪车主打舒适,它们的操控不好表达,像劳斯莱斯一样在车上堆红酒杯来表达操控并不严谨,也有夸张成分在,所以目前用户对商务级豪车的普遍印象就是冰箱彩电大沙发+贵,但现在到了电车时代,做冰箱彩电大沙发实在太简单了,所以新势力品牌都扎进去抢这块心智,让冰箱彩电大沙发反而变得廉价了,车企也没有更多办法证明自己和顶级豪车一样舒适,毕竟舒适这个东西,太主观了,且大多数人也没坐过顶级豪车。

跑车/性能车就不同了,他们的操控非常好表达,就是赛道圈速。大马力≠圈速,大马力+极致操控=圈速。性能车、超跑甚至赛车,无非是在改进操控的手段库里选手段罢了,性能车和超跑要上路,所以操控要适应的工况多一点,赛车则可以只针对赛道这一个工况设计操控,甚至连倒挡都不需要。这是小米喜欢解的题目,所以雷军亲自下场带队解题,不惜重金挖法拉利的顶级性能车专家,培养车手,全员考赛照... 最终在一条性能车、跑车殿堂级赛道拿下了那个让传统性能车、跑车及其爱好者惊掉下巴的圈速成绩。这么干净的论证方式,使得至今所有米黑,没有谁能黑得了小米汽车的性能和操控。小米性价比的“性”基本立住了。

至于后面的外观,抄保时捷、法拉利,就更抄iPhone 一样,是求稳的做法。如果不抄,去追求什么革命性的原创创新,反而风险很大,完全没必要。而且,价格要求摆在这里,没有给顶级的原创预算。

小米 SU7和 ultra,就是上述公式奏效的最好证明。在没有先验车主的情况下,一年之内十几二十万年轻人选择无脑冲。小米 YU7是台 SUV,SUV 车主更加求稳,在观望 SU7的一年口碑情况后,发现踏马的,高性能、好看、智能、舒适,质量还好,价格30万左右,口袋里有钱都找不到不买的理由啊,于是有了3分钟20万销量的成绩。
回过去看,如果没有圈速这个干净(手机的跑分就没有那么干净)的考卷,或者小米汽车没有考那么好(毫无争议的性能车最强),可能换成大多数其他条件(比如顶级原创外观、更豪华的配置、实际上的智能第一、实际上的续航第一等),小米汽车都不太可能有今天的成绩。
10
Bink_Ron
1年前
如何理解 Anthropic CEO Dario Amodei 说的 “In the next 3 to 6 months, AI is writing 90% of the code”?

最近看到很多圈子都在讨论这个观点,很多非程序员看到这个言论,都对AI 的发展速度感到震惊;但很多程序员也很不屑,觉得是在制造焦虑。到底怎么来看这句话?

我的理解,“AI is writing 90% of the code within 3-6 months” 这句话的意思,可以类比 Auto pilot driving is covering xx% of the miles within 3-6 months。

首先,LLM coding 的提效是毋庸置疑的。就在去年年底,我身边用 AI coding 的程序员还不足5成,看我用cursor 搞出来一点东西,根本都不屑;截止目前,我认识的工程师90%+都用上了这玩意,以前嘲笑我的某些工程师一天到晚跟我说又发现了什么真香的用法。私下里聊天,很明显可以看出,之前定下的排期在工具的加持下,至少可以压缩一半时间。但管理层还没反应过来,所以剩下的时间可以自己搞事情或者摸鱼。

其次,90%的 code AI 写,绝不意味着现在能裁掉90%的程序员。AI 现在最大的问题是,它无法稳固的构建系统,为结果负责,这注定了它只能作为 copilot 帮程序员提效。这也很好理解,自动驾驶哪怕能驾驭99%的高速场景,只要有1%的责任它不能担,系统(监管)就不会允许它完全替代人,这也是之前新能源车企迟迟不敢标 L3而要说 L2.999的原因。

即使是这样,自动驾驶依旧接管了重度使用用户大部分里程(根据去年极越的调研,全国智驾里程渗透率前10%的用户,其平均智驾里程占比高达82%)。但现在,几乎没有司机被替代,不会开车的人(比如我老婆,8年驾照,问我刹车踏板在左边还是右边)依旧不敢上路,滴滴司机数量也没少,只是卷了。

那自动驾驶要什么时候才能真正替代司机?逻辑上看,要么让自动驾驶的成功率接近100%,比如在一个极其理想的环境(道路、立法、物联网等基础设施能营造出一个足够标准化的出行场景;或者直接上天或下水),长尾事故大幅减少;要么有主体能站出来为自己的自动驾驶技术负责。 从我一个外行的视角看,大概率是前者,后者无法想象。

类比之下,AI coding 替代程序员逻辑也类似,但由于不是人命关天,没有自动驾驶那么严苛条件。我的判断是:

1. 初级程序员会先减少。未来 coding 的能力越来越强,我认为可能99%的代码都会给他写,人类只设计架构,监督方向,在 AI 跑偏的时候拉回来,为结果负责。程序员的效率提升了,需求量自然就减少了。

2. 未来增量的程序员招聘需求大幅缩减。新公司会根据 AI coding 的新范式设计组织框架,营造理想的任务环境给 Coding Agent 做任务,把非标准化的任务留给人,大幅缩减对程序员的需求。老的大公司反应过来后开始掉头,调整组织、制度,来更好地容纳 Coding Agent 的能力,并开始试点,再度减少招聘需求。

3. 最终,逐渐收敛到一个稳定状态。首席架构师-高级架构师-中级架构师-初级架构师 集群 形成一个新的组织形态,为 Coding Agents 的交付结果负责。

4. 等到 AGI 真的逐步来临,再一步步缩减架构师需求。
02
Bink_Ron
1年前
贴一篇之前在犬校的讨论:为什么大模型摘要看起来这么简单的事情,至今依旧难有标杆产品出现?

这是前段时间对一个问题的回复。问题大意是:
podcast摘要,影视作品总结,好像每个人对摘要的期望都不同。那么,好摘要的评判标准是什么,有没有一个有效公约数,构成好摘要的公认标准?

我的答复是:
要讨论好的摘要的评价标准,就需要先定义清楚摘要的主体和看摘要的人。

有一些主体的摘要应该长什么样子,是在目标群体中达成共识的,比如学术论文的摘要,新闻报道(事件的摘要),这些都有很明确的好的标准,明确的可以进行工业化生产。之所以这个标准能达成共识,我猜一个重要原因可能是读者的阅读目的某种程度上趋于一致,高效、全面了解事实。

但似乎大部分主体的摘要应该是什么样这个问题,并没有标准答案。

首先,文章的类型有很多,不同类型的文章的摘要方式肯定不一样。

其次,不同文章有不同的读者,读者读文章的目的都不同,读者之间对摘要的评价标准肯定也不同。
因此,好摘要的标准必然是因文章类型而已、因目标读者而异的。题主给的播客、电影这种摘要主体,恰好是最复杂的主体——类型多样,读者多样,大概率找不出公认的“最佳“标准作为公约数。

为什么大家觉得阑心一言的播客总结好看,因为大家的画像相似,或者说阑夕写总结面向的读者就是我们,所以他在文章多样性和读者多样性上保住了一头,他只需要考虑怎么将文章/播客 总结成我们喜欢的形式即可。就算是这样一件事情,也会因为文章/播客的多样性,导致其没有一套SOP(至少我去翻历史的总结,没有看出来什么规律)。

退一步说,即便是有,也很难把这个规律无损总结出来,期望大模型很容易就能理解。带过实习生应该有感觉,即便一套看似简单的方法交给一个实习生操作,实习生大概率很难看完直接就复刻,需要不断去领会方法论在他的认知体系中的真实含义。所以,这就跑不出对大模型的训练。

而要想有效炼出来这个能力,数据(至少上千吧)、精良的训练方式设计、算力缺一不可。再退一步,假设你有数据、有算力,这个训练方式的探索也有得研究。据我的认知,SFT 是很难搞定这个事情的;RLHF 可能有戏,但也不确定,加上其太费人力(高质量的人),目前成功案例不多;RL最难的地方在于奖励函数的设定,对于这种语言类任务,奖励函数很有可能因设定片面而使得模型效果奇葩。就算炼出来了,搞定的,只是面向足够垂直的读者的一类主体的摘要,roi...

所以,大模型摘要这件事情,我觉得看似简单,实则复杂的一批。
00