即刻App年轻人的同好社区
下载
App内打开
Bink_Ron
202关注171被关注0夸夸
💻Ex百度,做过增长、数字人,现在做Agent
📱AI coding各种玩法探索中
🏎️INTP,喜欢驾驶、摇滚
Bink_Ron
4月前
美团的外卖业务到底有没有护城河?

外卖大战开打时,我跟很多人一样,认为淘宝、京东纯给消费者发福利,根本干不动美团,美团干了这么多年积累的用户体验是白干的?这段时间各自财报出来,反映到股价上,阿里、京东股价上涨,美团下跌。显然资本家也不是傻子,肯定是有迹象表明外卖大战,美团式微了。这很反我认知,今天仔细想了想这个问题——美团外卖到底有没有护城河,有的话到底是什么?

一、用户价值构成分析

决定外卖的用户价值的因素:多、快、好、省。我们来从供给端分析,因为需求端显然没有护城河(外卖用户的迁移成本几乎为0).

多,靠的是强大的地推团队,去一家家谈合作,同时降低接入成本,接入尽可能多的商家。

快,靠的是大规模的骑手团队,以及对骑手团队的管理、赋能,将骑手的调度用到极致。这个一部分是靠招募骑手,一部分是靠精细化的调度算法。

好,靠的是推荐算法。好是因人而异的,不存在绝对意义上的“好”。只要在用户心中,买到了这个价格物超所值的外卖,对用户而言就是好。因此,在有了“多”的基础上,“好”意味着只需要排符合用户偏好的餐馆。

省,靠的是规模效应+精细化运营。在有足够多商家竞争时,商家端自然而然价格就会降下来,这个和线下餐饮逻辑一样。平台拿着抽成,再通过算法精细化补贴用户,构成了第二层低价因素。

所以一分析,“多”是最核心要素,有了多之后,“好”“省”就都有了;其次是“快”。至于骑手的调度算法,商家推荐算法,精细化补贴算法,这些对于京东、淘宝(饿了么)来说,根本不值一提。

那么,美团的“多”和“快”能形成护城河吗?

二、“多”有护城河吗

我记得之前有针对美团、饿了么二选一条款出的反垄断政策,禁止平台要求商家二选一。在有这条政策之前,美团的“多”是有护城河的。因为对商家而言,首次接入外卖平台是最困难的,第二次接入只需要如法炮制即可。但由于美团之前的二选一政策,它通过地推辛辛苦苦打下一家来,这一家如果要接入其他外卖平台,机会成本就是放弃美团,商家肯定不干,因为美团才是大哥。现在想想,反垄断政策一出台,美团估计傻眼了——自己辛辛苦苦打下来的商家,迁移成本居然这么低,这不是纯纯为外卖行业做公益吗??

商家迁移无法形成护城河,那竞品地推就更容易了,只需要做过本地业务的团队,组织起来,洽谈好合作条款就能接入。

三、“快”有护城河吗?

因为京东、淘宝都是做快递员调度的专家,可以假设大家的调度系统实力相当。在这种情况下,“快”就取决于骑手数量了,骑手越多,自然送货就越快。那花钱不就能招来骑手吗?

这里我觉得,“快”、“多”和营收是有飞轮效应的。“多”带来点餐体验 up 订单增加,营收增加 骑手需求增加,花更多钱招骑手 规模扩张吸引更多商家 订单、营收增加 有钱招更多骑手→ ...

这个增长飞轮是美团有底气招来如此庞大的骑手团队的根本,竞品要想砸钱,需要砸很久,让“多”“订单量”“骑手量”螺旋式增长,形成这个飞轮。如果没有足够多的商家和订单量,只砸钱招骑手是不行的;没有骑手,订单量的增长也是不可持续的,因为收货体验太差。

从这个角度看,“快”其实是有护城河的。因为实现“快”的难度很大,要花很多时间和钱,没有战略性投入的 决心,很难打下来。这也是饿了么之前打不动美团的原因吧。

让我想不到的是,阿里动真格了,看清楚了这件事后,真的花够了钱,砸了足够长的时间,把“快”逐渐打下来了。上个月点闪购,我(在深圳南山区)常吃的外卖高峰期配送时长普遍超过70分钟,美团50分钟;这个月居然倒过来了...

四、后面的看点

短期之内,可以认为外卖用户的总量相对固定。需求既然固定,那么,供给就是在内卷,瓜分存量市场。供给的护城河是订单、骑手数量、商家数量形成的飞轮,其中,长期稳定的骑手数量是这个飞轮实力的体现。

阿里现在已经砸了几百亿,基于饿了么能力基础,把这个飞轮砸出来了,订单量和美团倒挂,可见在长期,骑手量也将倒挂。美团如果再想不出有效应对的办法,阿里的增长团队势必进一步迁移美团核心用户群,直到:阿里没钱了,或者美团被干死了。

但我觉得美团不至于被干死,因为美团也不是没钱,无差别补贴70%的用户要花的钱,跟无差别补贴30%的用户要花的钱可不一样。美团一定会不惜代价守住它有能力守住的这部分用户群,最终,我推测,市场瓜分的结果会跟各自钱包(血条)的厚度高度契合。

没做过外卖业务,也是纯外行视角的分析。如果有更懂业务或者内情的,可以一起来聊下。
74
Bink_Ron
4月前
昨天看到篇讨论中美 AI SaaS 的公众号文章(mp.weixin.qq.com),对我比较有启发,做了点延伸思考。

它讨论了一个问题:美国头部的 AI+ SaaS 公司,能创造一年上亿美金的 ARR,而中国的 AI SaaS 公司,就基本没有通过国内用户创造1亿(哪怕是 RMB)ARR的。什么原因?

原文关键句摘录如下:
“中美的差异不仅仅服务对象的区别,而是两种底层范式的分歧:中国讲“入口“,美国讲“接口“。
而正是这种路径依赖,构成了当下的分野:
问题在于,AI不是一款能装进App Store的新应用,它是一种“打散路径、压缩流程“的基础能力。在AI的世界里,用户不再从一个App出发,而是从问题出发、从意图出发——直接奔向结果。带来的结果是,入口的价值被不断压缩:从“路径经济“转向“结果经济“,控制用户路径的价值也随之贬值。”

但我觉得讲得还是太抽象了点,我看完想了想,可能这个背后更清晰的逻辑链如下:
1️⃣ 美国的 SaaS 接口生态很强大,大家解决的问题都很细很垂,但各产品接口是打通的,企业按需采购产品;
2️⃣ 中国的 SaaS 讲究抢占入口、汇聚流量,大包大揽地解决问题,干死垂直的 SaaS 产品,然后再寻求增值服务变现。
3️⃣ 而当前,AI 叠加进来后,大包大揽的中国 SaaS 就要面临更复杂的问题,比如钉钉、飞书接了 AI,要考虑 AI 如何打通整个生态,IM、搜索、知识库、项目管理、文档等,并且还不好分别为了 AI 单独收费。要知道,这些板块每一个都能养活美国的一个头部 SaaS 的,比如 Slack(IM)、Glean(搜索/知识库)、Linear(项目管理)、Notion(文档)... 而这些 SaaS 能各自收钱,且 AI 要解的题也要细得多。
4️⃣ 这就相当于,国内的入口级 SaaS,大包大揽,事干得多,钱还不好多收,因为客户很难理解为什么一个产品下的 AI 要反复收费。而美国的 SaaS,由于产品定位清晰、垂直,AI +产品的命题简单,事少钱多。这你让国产SaaS 怎么比...

从这个角度看,国产 SaaS 曾经很难,做小 B要在大厂的夹缝中生存,做大 B 要忍受诸多定开要求。到了 AI 时代,还更难做了,地狱模式下还要解决全球 AI 产品都在探索的新问题:AI 怎么收费。

AI 的商业模式问题目前在全球范围内都没有找到最佳实践。基座模型 API 就像个快速跳动的电表,只要你接了它,你就得按量付电费,基座厂商自己也不例外。

所以,全球当前最主流的订阅制,也没有办法保证自己的收费内 cover用户的需求,cursor、Claude code 都被迫将无限套餐(哪怕$200的天价)方案关停,多档订阅当前的实质其实就是卖 token 包,本质还是按量收费。
但你看看用户的反应,当cursor、Claude code限制使用量后,骂声一片,显然用户很难接受按量付费,核心原因是,现在AI 还不能事事都给出靠谱的解决方案,花了几十美金发现事没做好这让人如何接受?

现在活得好的 AI产品,基本都是传统产品+AI 的类型,AI 融入解决方案中,不会由用户驱动去大量消耗 token,所以订阅费能 cover 成本,逻辑顺畅。原生的、由用户驱动的、任务过程中消耗大量 token 的产品,在订阅制的框架下水土不服,按量收费又不得民心,咋办?
自然而然,大家都会想到,既然用户要的是解决方案,我们就按效果收费,行不行?

逻辑上很make sense,但当前也遇到很多问题:怎么定义效果?谁来定义效果?怎么衡量效果?怎么定价?这里面水很深。

就说定效果,很多订阅制难以 cover 成本的场景都是创作型场景,压根就没有明确的效果指标,更别提衡量了。比如你让 Manus 、DeepResearch AI 给你跑个调研报告,怎么定效果指标来和你的偏好对齐?有的时候,你自己都说不清楚,而且这因人而异。

有些场景确实有可能有客观的、后验的效果指标,比如智能客服的满意度/投诉率,AI 销售的成单率等,但这些场景,决定效果的可能不是 agent,而是运营的经验和 SOP,你说你要按效果收费,他反而不同意。

真正适合按效果收费的场景,目前看下来,少之又少。我看到的约束是:
需求侧:① 效果指标明确且行业能共识;② 效果可衡量;③ agent 能决定效果;④ 容错率高,即效果差导致的损失极低。
供给侧:① 任务所需 token 可控;② 为 agent 定制的能力要有规模效应。

插个题外话:一年半前我还在做数字人的时候,就在探索这个按效果付费的模式。当时切入营销短视频领域,找到了几家营销短视频代运营的上市公司,他们每天都要生产几千条营销短视频,帮客户投到广告平台。

我们当时想谈这个模式:我们免费帮忙定制数字人(形象和拍摄他们安排),他们可以在购买的并发量(成本价)下随意使用产品,最终按投流的消耗量折算一个比例给我们付费,如无消耗可以不付钱,上到 xx 万(参照请演员的固定开支,再低一定的比例)封顶。大概意思就是成本绝不会比之前请演员模式高,按效果付费确保钱不打水漂。当时他们很感兴趣,试了一段时间,后来还是拒绝了我们。原因是,字节的即创横空出世,前期免费用,后期订阅制,量大管饱,成本更低生态更好...
01
Bink_Ron
5月前
看了 Deamoy demo,交互思路很惊艳,感觉把 figma AI 的事情做了。

我一直觉得前端 AI 正确的打开方式就是搭建60-70分的结构(AI 也只能做到这个程度),然后人来把结构细节调整到90分,AI 再做整体 UI 上的润色。

当前大多数场景下,人调细节的工作都只能靠嘴说,但靠嘴很难说明白。最理想的方式就是给人提供低门槛的工具,让人先摆弄好结构,然后 AI 也能理解这个摆弄的意图,最后 AI 据此来做润色,完成最后一步。

现在能提供低门槛工具的场景并不多,比如coding 就不行,生图、生视频也不行,可能为数不多有概率做成的就是写作和前端/UI(面向 PM)。但UI 工具要做好并不简单,UI 设计产品+ AI 能力来做这个事情可能会比 AI coding产品+ UI 工具要容易点,因为前者基建更强,或者说有更强的脚手架。

因此,能内测后,我觉得看点是:
1. 给的 UI 工具好不好使,满足用户低成本调整的诉求;
2. AI 能不能理解这个调整,并针对调整来进行后续的调优。

池建强: 所想即所得,零零后做的这个工具有点猛 上周玉伯在微信上给我介绍了个朋友,一个非常年轻的 AI 产品团队,还有他们的产品。玉伯说:“你得试试这个,AI 搭独立站点,产品落地页,数据大屏,非常方便,你会喜欢的。他们还在内测阶段,邀请码只发了一点。” 听起来有点“平平无奇古天乐”的意思,我看了下,这个产品叫做 Deamoy AI。 打开后我试着说了一句“帮我做一个叫墨问的 AI 问答产品的落地页”。随即,这个产品就像变魔术一样,一帧一帧在我眼前生成出来,功能区,展示元素,颜色自动搭配,排版和设计都已经达到了标准设计师的水准。我看颜色不喜欢,还让它整体换了一套墨问红。 多次沟通了调整之后,一个漂亮的产品独立网站就做出来了,十分惊艳。 这不是我第一次看到用 AI 做页面生成的工具,但 Deamoy 明显有点不一样。 与主流的代码生成工具不同,Deamoy 并不走“生成代码—测试—部署”的传统路线,也不像 Trae SOLO 那样强调从需求拆解到产品上线的全链路自动化。它的着力点在于彻底简化流程,让用户跳过冗长的开发步骤,直接进入所见即所得的搭建体验。 你不需要懂设计。页面生成后,用户可以像在 Figma 里拖动组件那样自由调整布局,也可以继续用自然语言与它对话,比如说“把这个按钮调大一些”、“换成黑白配色”、“再加一个登录入口”等等。它会立刻理解你的指令,并实时同步做出修改。 在传统的 AI 生成应用的平台上,从生成代码到编译再到预览,往往需要经历一段不短的等待,有时候甚至连出错的原因都难以定位,有时候我们说一句话,AI 就开始回滚重来,非常让人恼火。Deamoy 直接省略了这些中间环节,采用“流式即时渲染”技术,将结果以动态画面的方式实时展现在你眼前。整个过程像搭乐高积木一样自然流畅,没有“要不要先试着运行一下”的犹豫,每一步都清晰可见。 就现在的体验而言,这个产品足以让人眼前一亮。这种产品形态,让我对未来的工作方式有了更具体的想象。 强烈推荐关注。

00
Bink_Ron
5月前
我在看到红牛车队(F1)的时候也想过类似问题,红牛车队能造 F1冠军赛车,还做什么饮料(红牛24年营收$12B),为啥不去造民用车降维打击?相反,搞民用车牛逼的公司(奥迪、宝马、本田等)为什么反而拿不下 F1冠军?

后来想的阶段性结论是,民用车生意成功的关键是精细化运营,是规模效应;F1赛车(包括顶级发动机)成功的关键是突破极限的核心科技。这俩乍一看似乎是上下游关系,或者1和1万的关系,实则玩的根本不是一个游戏。

李奇: 造出了效率比别人高十倍的发动机,为什么不去造汽车,而是卖发动机?

00
Bink_Ron
5月前
近期和朋友聊天,听说国内像豆包、元宝、Qwen 等团队近半年都在猛肝产品,加班之狠(甚至有10-1-6.5的传闻)令人咋舌。不禁很好奇国产模型现在进化到啥地步了,就去 APP store 翻了翻元宝、豆包这两个直接的竞品近半年的迭代记录,并对最新产品进行了体验。有一些感受,记录如下。

先是豆包。

1. 豆包确实厉害,既要又要。一方面在追赶 ChatGPT、Claude、Gemini SOTA 模型产品的能力,比如DeepResearch、边想边搜(多轮次检索)、Artifact、AI 播客等。另一方面,在追赶过程中,还保持着自己对产品框架的独特定位。

2. 豆包想得很清楚:移动端要轻便易用,桌面端要 context、要 SOTA。

3. 豆包的移动端 APP 的主场景我认为是轻问答,她鼓励用户有任何小问题,首先想到豆包。字节把豆包 APP 包装成通讯录,制定豆包,可能就是想传达一种感觉——豆包是你最亲密的 AI 伙伴,希望你有事能想到她,给她发消息打电话。

4. 豆包 APP 是我认为全球范围内,从起心动念到开始交互的摩擦最低,交互起来最轻快,体验最丝滑的APP,没有之一。每次打开豆包,直接进到聊天界面,上面是聊天历史方便 call back,如果想开启新话题直接说就好了,不用纠结要不要开个新窗口说。真正和 ChatGPT、Claude、Gemini、grok 等一众产品做出了差异化。

5. 至于语音交互,就更绝了,国内断档领先竞品的存在,拟人化的音色和语气词,超低的延时支持随时说话打断,大量为了流畅沟通而做的优化(包括 prompt 工程、Memory 工程和训练),更绝的是,你还能让豆包唱歌,她并不是在放歌,而是真的唱了,像人一样会走调的… 另外,从设计师可以看出,豆包APP 在极大地鼓励用户使用语音交互,它认为很少有人在手机上会愿意打一堆字,甚至输入框长按都能触发语音输入… 今年过年我给亲戚们安利 AI 产品,最好使的就是豆包,给豆包打几分钟电话示范一下,没有亲戚不心动的。

6. 豆包的桌面端在比较早期就做成了浏览器的形式,比 Dia、fellow 都早。虽然我能够理解如果能打下浏览器的心智,就能拿到大量的桌面时间和桌面端 context,未来大有文章能做,但由于 ChatGPT、Claude、Gemini 太强大了,我至今未能感受到豆包拿着 context 在桌面端做出的差异化体验,除了一点:读论文。我现在100%的论文都会复制到豆包来读,真的吹爆。其实我有 Monica 会员,沉浸式翻译也绑定了 DS API,但前者的对照翻译就很屎,在我看来就是不可用级别,主要是切片策略,一行一行切片,灾难级的上下文理解,还消耗我 token;后者对论文的切片也一样差,且由于接的是 DS,虽然单句的质量稍高,但翻译一篇论文的耗时一言难尽,有的时候等它结果的过程中我英文都读完了才翻译出来… 豆包就不一样了,或者说字节系的产品,文本切片策略都很顶,估计火山有统一的模型来处理,加上豆包翻译的质量和速度,体验顶级。

7. 此外,由于豆包多、快、省外加质量稳定的特点,让我养成了一个习惯:凡是想用大模型干小活,我首先想到就是用豆包客户端。比如想要快速处理一大段的文本格式,快速出个图(改个图),英文纠错,修改小代码格式问题(如 json、mermaid 、xml之类的)。尽管我ChatGPT、Gemini、Monica都能无限使用,但总觉得他们很重很慢,遇上类似上面这些活时,总是下意识开豆包做,可见豆包多、快、省的心智烙印在我心里之深。(PS:豆包的桌面端全局划词插件也是我唯一保留的插件,极好用)

8. 从产品迭代历史来看,我感觉豆包团队的思路就是,认可 ChatGPT、Claude、Gemini等产品在桌面端的用户价值,并坚定跟随,尽可能对标了东西就要青出于蓝,虽整体上很难做全球第一梯队,但必须做国内第一梯队,为国人带来极致的桌面端体验。所以在桌面端,我猜,豆包团队的核心目标就是做国内的 SOTA。

再看元宝。

1. 相比之下,元宝则有点在赶工的味道了。从版本迭代记录看,今年 DS 爆火后开始发力,一直火力全开补全敌有我无的产品能力。比如文档问答,图文 RAG,AI 绘图,智能体,Artifact 这些能力。 但看现在 SOTA 模型产品的进度,似乎元宝还有好些前沿的能力要追,比如 DeepResearch,通用任务 agent(自带虚拟机和 computer use 能力),AI 播客…

2. 但追赶之外,元宝似乎没有像豆包那样,找到自己该主张什么独特的用户价值,在自己的框架下追赶,不论是移动端还是桌面端。这么没日没夜加班加点赶工,看起来更像是应激反应,而不是在 bet 什么。

3. 当然,也能看出来,元宝一直在想办法利用腾讯系强大的产品生态做出独特的用户价值,比如打通微信聊天、微信搜一搜、腾讯文档、QQ 音乐。但体验过后,怎么说呢,我能感觉到团队很浮躁。表面上看这有那也有,但看不出产品里有什么独特的心思,连接缺乏深度。

4. 比如作为聊天助手植入到通讯录,却没有利用这个生态,打造出一个体验明显超越豆包、kimi 的使用场景。就拿摘要助手这个曾经的热门场景来说,在微信生态中转篇文章给元宝,竟然不能基于这篇文章连续讨论,甚至不能回跳到元宝 APP 里接着讨论。更不要说转发播客、视频号这种多模态的消息了。

5. 借助微信通讯录这样的资源,本应该轻而易举做到豆包绞尽脑汁做到的事情——打造一个 all in one 的、通讯录里的陪伴者+小助手人设。如果能够好好设计一番,哪怕抄作业,不说迁移豆包的用户吧,也能在微信生态中获得豆包难以覆盖的新客,复刻豆包的主要用户价值。至少当时我看到元宝接入微信通讯录时,我是这么想象的,我相信以腾讯的产品能力,把这个场景吃下来是很轻松的。始料未及的是,没有后文了,元宝就这么放弃了?

6. 近期上线的 QQ 音乐的打通也毫无深度,网易云音乐之前整了个活,把用户近100条收藏音乐导成提示词给 Deepseek进行分析,这种类似的活就该元宝+QQ 音乐来整。作为一个私人助手,在为用户推荐音乐时,最重要的用户价值是要懂用户,能结合用户偏好精准找到用户现在想听的音乐,元宝本可以很容易和 QQ 音乐联手,拿下这个心智,居然也放弃了。去捡了最后一步——推荐音乐→找到音乐这个链路——这一价值芝麻大点的心智。

7. 本以为不用元宝,是因为我不懂他,谁知道了解完,还是没有找到任何用他的理由。他的产品设计,没有给出一个类似豆包一样,令人印象深刻的差异化特征,只是一个劲在追随。潘乱曾经的大作《腾讯没有梦想》里说的问题,今天从元宝的状态看,好像问题依旧存在。

这个容易被 FOMO 驱动的时代,每一个想做成的产品都需要反复思考并清晰地回答一个问题:“我为什么值得被记住。” 豆包似乎逐渐摸到了节奏,元宝好像还没有。
1721
Bink_Ron
6月前
这两天 YU7热度退下来,仔细体会了一下小米汽车品牌号召力的源头,也问了两三个下定朋友的想法。我的感觉是,一个准确击中市场核心竞争点的长板+ 市场普遍认可的外观(不管抄不抄)+ 远低于同参数产品的定价 = 小米品牌基石。

不论是曾经的手机还是当前的汽车,好像都遵循这个公式。手机当年(2010年),高性能就是手机最核心的竞争点,只有高端机(3500元+)才配高性能,小米抓住这个点,主打“为发烧而生“,外观贴近最保险的 iPhone,把价格打到1999,塑造了小米手机极致性价比的品牌形象,买到就是赚到,其余的卖点,都是锦上添花,只要不要低于及格线即可。如果没有高性能、好看、便宜这三点,其余的上了天也无法形成小米的品牌竞争力。

现在的小米汽车如法炮制,直接杀到汽车核心竞争力的中心——顶级操控。操控这个词很玄学, 它跟太多因素相关,提速、刹车、悬架、转向... 豪车也好、超跑/性能车也好,区别与普通汽车的核心之一就是操控。

但商务级豪车主打舒适,它们的操控不好表达,像劳斯莱斯一样在车上堆红酒杯来表达操控并不严谨,也有夸张成分在,所以目前用户对商务级豪车的普遍印象就是冰箱彩电大沙发+贵,但现在到了电车时代,做冰箱彩电大沙发实在太简单了,所以新势力品牌都扎进去抢这块心智,让冰箱彩电大沙发反而变得廉价了,车企也没有更多办法证明自己和顶级豪车一样舒适,毕竟舒适这个东西,太主观了,且大多数人也没坐过顶级豪车。

跑车/性能车就不同了,他们的操控非常好表达,就是赛道圈速。大马力≠圈速,大马力+极致操控=圈速。性能车、超跑甚至赛车,无非是在改进操控的手段库里选手段罢了,性能车和超跑要上路,所以操控要适应的工况多一点,赛车则可以只针对赛道这一个工况设计操控,甚至连倒挡都不需要。这是小米喜欢解的题目,所以雷军亲自下场带队解题,不惜重金挖法拉利的顶级性能车专家,培养车手,全员考赛照... 最终在一条性能车、跑车殿堂级赛道拿下了那个让传统性能车、跑车及其爱好者惊掉下巴的圈速成绩。这么干净的论证方式,使得至今所有米黑,没有谁能黑得了小米汽车的性能和操控。小米性价比的“性”基本立住了。

至于后面的外观,抄保时捷、法拉利,就更抄iPhone 一样,是求稳的做法。如果不抄,去追求什么革命性的原创创新,反而风险很大,完全没必要。而且,价格要求摆在这里,没有给顶级的原创预算。

小米 SU7和 ultra,就是上述公式奏效的最好证明。在没有先验车主的情况下,一年之内十几二十万年轻人选择无脑冲。小米 YU7是台 SUV,SUV 车主更加求稳,在观望 SU7的一年口碑情况后,发现踏马的,高性能、好看、智能、舒适,质量还好,价格30万左右,口袋里有钱都找不到不买的理由啊,于是有了3分钟20万销量的成绩。
回过去看,如果没有圈速这个干净(手机的跑分就没有那么干净)的考卷,或者小米汽车没有考那么好(毫无争议的性能车最强),可能换成大多数其他条件(比如顶级原创外观、更豪华的配置、实际上的智能第一、实际上的续航第一等),小米汽车都不太可能有今天的成绩。
10
Bink_Ron
9月前
如何理解 Anthropic CEO Dario Amodei 说的 “In the next 3 to 6 months, AI is writing 90% of the code”?

最近看到很多圈子都在讨论这个观点,很多非程序员看到这个言论,都对AI 的发展速度感到震惊;但很多程序员也很不屑,觉得是在制造焦虑。到底怎么来看这句话?

我的理解,“AI is writing 90% of the code within 3-6 months” 这句话的意思,可以类比 Auto pilot driving is covering xx% of the miles within 3-6 months。

首先,LLM coding 的提效是毋庸置疑的。就在去年年底,我身边用 AI coding 的程序员还不足5成,看我用cursor 搞出来一点东西,根本都不屑;截止目前,我认识的工程师90%+都用上了这玩意,以前嘲笑我的某些工程师一天到晚跟我说又发现了什么真香的用法。私下里聊天,很明显可以看出,之前定下的排期在工具的加持下,至少可以压缩一半时间。但管理层还没反应过来,所以剩下的时间可以自己搞事情或者摸鱼。

其次,90%的 code AI 写,绝不意味着现在能裁掉90%的程序员。AI 现在最大的问题是,它无法稳固的构建系统,为结果负责,这注定了它只能作为 copilot 帮程序员提效。这也很好理解,自动驾驶哪怕能驾驭99%的高速场景,只要有1%的责任它不能担,系统(监管)就不会允许它完全替代人,这也是之前新能源车企迟迟不敢标 L3而要说 L2.999的原因。

即使是这样,自动驾驶依旧接管了重度使用用户大部分里程(根据去年极越的调研,全国智驾里程渗透率前10%的用户,其平均智驾里程占比高达82%)。但现在,几乎没有司机被替代,不会开车的人(比如我老婆,8年驾照,问我刹车踏板在左边还是右边)依旧不敢上路,滴滴司机数量也没少,只是卷了。

那自动驾驶要什么时候才能真正替代司机?逻辑上看,要么让自动驾驶的成功率接近100%,比如在一个极其理想的环境(道路、立法、物联网等基础设施能营造出一个足够标准化的出行场景;或者直接上天或下水),长尾事故大幅减少;要么有主体能站出来为自己的自动驾驶技术负责。 从我一个外行的视角看,大概率是前者,后者无法想象。

类比之下,AI coding 替代程序员逻辑也类似,但由于不是人命关天,没有自动驾驶那么严苛条件。我的判断是:

1. 初级程序员会先减少。未来 coding 的能力越来越强,我认为可能99%的代码都会给他写,人类只设计架构,监督方向,在 AI 跑偏的时候拉回来,为结果负责。程序员的效率提升了,需求量自然就减少了。

2. 未来增量的程序员招聘需求大幅缩减。新公司会根据 AI coding 的新范式设计组织框架,营造理想的任务环境给 Coding Agent 做任务,把非标准化的任务留给人,大幅缩减对程序员的需求。老的大公司反应过来后开始掉头,调整组织、制度,来更好地容纳 Coding Agent 的能力,并开始试点,再度减少招聘需求。

3. 最终,逐渐收敛到一个稳定状态。首席架构师-高级架构师-中级架构师-初级架构师 集群 形成一个新的组织形态,为 Coding Agents 的交付结果负责。

4. 等到 AGI 真的逐步来临,再一步步缩减架构师需求。
02
Bink_Ron
10月前
贴一篇之前在犬校的讨论:为什么大模型摘要看起来这么简单的事情,至今依旧难有标杆产品出现?

这是前段时间对一个问题的回复。问题大意是:
podcast摘要,影视作品总结,好像每个人对摘要的期望都不同。那么,好摘要的评判标准是什么,有没有一个有效公约数,构成好摘要的公认标准?

我的答复是:
要讨论好的摘要的评价标准,就需要先定义清楚摘要的主体和看摘要的人。

有一些主体的摘要应该长什么样子,是在目标群体中达成共识的,比如学术论文的摘要,新闻报道(事件的摘要),这些都有很明确的好的标准,明确的可以进行工业化生产。之所以这个标准能达成共识,我猜一个重要原因可能是读者的阅读目的某种程度上趋于一致,高效、全面了解事实。

但似乎大部分主体的摘要应该是什么样这个问题,并没有标准答案。

首先,文章的类型有很多,不同类型的文章的摘要方式肯定不一样。

其次,不同文章有不同的读者,读者读文章的目的都不同,读者之间对摘要的评价标准肯定也不同。
因此,好摘要的标准必然是因文章类型而已、因目标读者而异的。题主给的播客、电影这种摘要主体,恰好是最复杂的主体——类型多样,读者多样,大概率找不出公认的“最佳“标准作为公约数。

为什么大家觉得阑心一言的播客总结好看,因为大家的画像相似,或者说阑夕写总结面向的读者就是我们,所以他在文章多样性和读者多样性上保住了一头,他只需要考虑怎么将文章/播客 总结成我们喜欢的形式即可。就算是这样一件事情,也会因为文章/播客的多样性,导致其没有一套SOP(至少我去翻历史的总结,没有看出来什么规律)。

退一步说,即便是有,也很难把这个规律无损总结出来,期望大模型很容易就能理解。带过实习生应该有感觉,即便一套看似简单的方法交给一个实习生操作,实习生大概率很难看完直接就复刻,需要不断去领会方法论在他的认知体系中的真实含义。所以,这就跑不出对大模型的训练。

而要想有效炼出来这个能力,数据(至少上千吧)、精良的训练方式设计、算力缺一不可。再退一步,假设你有数据、有算力,这个训练方式的探索也有得研究。据我的认知,SFT 是很难搞定这个事情的;RLHF 可能有戏,但也不确定,加上其太费人力(高质量的人),目前成功案例不多;RL最难的地方在于奖励函数的设定,对于这种语言类任务,奖励函数很有可能因设定片面而使得模型效果奇葩。就算炼出来了,搞定的,只是面向足够垂直的读者的一类主体的摘要,roi...

所以,大模型摘要这件事情,我觉得看似简单,实则复杂的一批。
00
Bink_Ron
10月前
Manus是不是AGI?

看到Manus发布,为 Monica 团队能为 LLM 整合如此多的“手”而惊叹,团队对 pipeline 的优化展示了强大的工程实力。

看了很多讨论,又说AGI来了,每一次通用模型整新活,都会被这样夸。

我的思考是,AGI 绝不会那么简单。人类要在一件事情上做到专家水准,尚需先掌握相关显性知识,再做大量刻意练习来 get 知识缝隙里的隐藏认知,凭什么 LLM 仅仅通过知识+思维链+工具的方式就能做到?

回归常识。当我们认为问题太泛的时候,让回答有效的最重要动作就是分类讨论。AGI 无疑是世界上最泛的问题了,在这个阶段尝试直接给出答案,还是草率了。从这个角度,我坚持认为领域专家(类似编程专家 Devin 、驾驶专家特斯拉 FSD这样的)会先通过知识注入、工程化赋能+大量训练,来给到人类相对满意的答案。短期内不相信 AGI 神话。

当然,好的工具无论是不是AGI,对用户而言都是福音,感觉Manus在极大的用户样本下,能产生出令人惊艳的应用案例。尤其是,它还开源。

希望能尽早拿到码用起来🙏
00
Bink_Ron
10月前
哎今天早上又看了下 🏎 小米SU7ultra发布会,欲火中烧却求而不得,真难受😭 要不是钱归老婆管,可能我就... 哎算了。

很久没有过这种感觉了,应该很多用户也有这种感觉。从数据看,一台53w+的车,两小时大定破万。。。以我对性能车群体的了解,真的会买车下赛道的人在国内少得可怜(撑死10w 量级吧,我当时冲着下赛道买的车,现在也只下过5次赛道);日常赛道玩家就更少了,少一个数量级都不止;能轻松驾驭500匹以上马力的人,那都是玩车界的 KOL 了,数量更少。。

小米 SU7ultra 的配置和调教水平,KOL 们在赛道中才能感受的到,普通人开起来,估计跟开小米 SU7普通版没区别,加上更低的底盘件,反而(相对而言)更不适合家用了。但这丝毫不影响普通用户的购车热情。
一方面,53w 给你百万性能车才有的配置和上限,买到就特么的赚到啊!
另一方面,这种毫无争议的性能和年轻运动的品牌调性,买了显得我多年轻潮流、拥抱科技啊,人设杠杠的!加上雷军和小米汽车团队造车的故事加持,买车这件事情的性质都升华了,情绪价值拉满。
加上这个车是四座的,性能拉满的同时至少还能兼顾家用,以至于不会被老婆一票否决。(这很重要,以往的性能车多是两门车、两座车根本无法家用。)
从这个角度看,小米造车想得真的很清楚,且品牌塑造真牛逼。

跟犬校同学讨论的时候提到情绪价值,我觉得情绪价值恰恰是品牌价值中最重要的一个部分。大定的一万多人中,可能只有一成是冲着功能价值定的,打心底觉得买到就是赚到,性价比拉满;另外9成,功能价值只是基础,我上面说的买车后的人设塑造才是下单的核心原因,人设塑造收益就是大家用他们期待的眼神看他时,带给他的情绪价值。

当品牌提供的情绪价值被大量用户认同并接受时,这种情绪价值就会逐渐内化为品牌的调性。这是雷军最想看到的、也是小米汽车未来更高端化需要发生的事情。
00