mingsheng1的个人主页

即刻App年轻人的同好社区

下载

mingsheng1

66关注514被关注0夸夸

曾经微博首位产品负责人，现在某电商公司AI应用产品总监。
下班玩🦞，例如搞IM、日记…
计算机系毕业，本不喜欢编程，现在每天AI编程。

mingsheng1

2天前

模型日趋成熟，AI的下一程：比拼工程配套与真实体验

每天刷AI资讯，这几天的感受是：模型仍在持续迭代，能力也在稳步提升。文本理解、自主任务处理、多场景交互等方向，新模型与新基准不断出现，例如：

• 《Claude Mythos官宣！性能碾压Opus 4.6，因太危险遭「囚禁」》（量子位）

• 《刚刚，Anthropic祭出最强Claude Mythos！暴击Opus 4.6，跪求千万别用》（新智元）

Claude Mythos这类模型，能力已经强到需要通过限制发布来规避安全风险，这恰恰印证了一个越发清晰的趋势：对多数场景而言，模型基础能力已经可以满足需求。真正影响落地与体验的，往往是模型之外的部分——Harness工程骨架、部署方式、知识库、数据自主权以及更贴合日常的交互方式。

行业讨论也在印证这一转向，多篇文章都聚焦于此：

• 《我把Karpathy的知识库方法论落地了，效果超出预期》（云小虾）

• 《深度｜对话LangChain创始人：为什么Manus和Claude Code这么强？秘诀不在模型，而在顶级Harness》（Z Finance）

• 《同一个模型，换个Harness排名跳了25位：智能体基础设施完全解剖》（深思SenseAI）

这些内容共同指向一个核心：AI能否真正用好，越来越依赖模型以外的工程体系与配套设施。

我最近在使用AI编程工具时，对此感受尤其明显。单看模型，AI编码能力已经比较完善：理解项目结构、执行命令、排查问题、长时间完成工程任务都比较从容。但落到实际使用，体验上的短板很突出。

我有一个很朴素的需求，技术上并不复杂：

• 代码存放在我自己的云服务器；

• AI在我的服务器上操作文件；

• 手机上有官方APP，随时查看进度、下发指令、简单干预。

简单说：代码自己掌控，手机随手可控。

但主流工具大多不能顺畅满足。要么强制把代码托管在平台云端，要么只支持桌面端，远程操作体验割裂。像Windsurf这类主打AI工程的工具，甚至没有官方手机APP，更无法实现手机直连自有服务器。

不少工具推出的“云端代理”，也只是把任务跑在平台自己的服务器上，而非我自己的服务器；有的支持代码托管，也只绑定GitHub这类固定平台，没有给用户选择权。

其实 OpenClaw 已经能实现“代码在自有服务器+手机远程操作”的模式，只是它在AI编码上不够专业。我更希望的是：把 Cursor、Codex 这类成熟的AI编程能力，直接部署在我的云服务器上。

这并非个例，而是很多AI应用的共性问题：
模型在持续升级，配套却常常被忽略。
数据是否可以留在自有环境，不是优先考虑；
自定义部署到个人服务器，大多只面向企业版本；
手机端等跨设备操控，体验普遍粗糙；
稳定的执行框架与可预期行为，优先级往往低于 benchmark 表现。

行业越来越多地讨论Harness，也说明大家开始达成共识：
同一模型在不同工程框架下，落地效果差异明显。
AI能否顺畅融入工作流、让人放心使用，更多取决于工程配套。

模型决定能不能完成任务，工程配套决定用得顺不顺、安不安心。

未来AI的竞争，会慢慢从模型能力，转向工程化落地、使用体验与自主可控性。

模型已经走向成熟，现在该好好打磨配套的工程与体验了。

2 00

mingsheng1

3天前

AI Agent时代，我们还需要 PPT 吗？

早上听十字路口采访Moxt 的播客，有个转变值得琢磨：OpenClaw 出现后，隶属于猿辅导集团的这支AI探索团队，放弃了原本做了几个月类似Lovart 的产品形态，转向 AI 工作空间。
他们说本来是想写一个Markdown文件的共享服务，后来做成了工作空间。一个很关键的选择是：不再用传统 Office，也不用类 Office 的在线文档，转而用 Markdown 和 HTML 来做内容载体。理由也很直接——这种开放格式，更适合 AI Agent 之间高效协作。

这一点我自己也有体会，尤其演示文稿这件事。先回到一个根本问题：当年为什么会出现 PPT？
其实就是为了解决演讲场景的刚需：演讲时需要图文并茂，需要简单的排版和动画，同时要封装成一个编辑简单、操作门槛低、方便传递的文件。
PowerPoint 诞生于 1987 年，由硅谷公司 Forethought 开发，最初只支持苹果 Macintosh 系统，后来被微软收购并成为Office的一部分。在那个大多数人不会写代码、不会做网页、电脑以文本操作为主的年代，演示是专业设计师或技术人员才能完成的事。PPT 把复杂的视觉展示能力封装成傻瓜式工具，让普通人也能快速做出像样的演示，它是为“大众能力不足”这个时代约束量身定做的产品。

今天，这套逻辑已经开始松动。
网页技术本身，完全可以实现 PPT 能做的一切：图文排版、翻页切换、动画效果、全屏演示，甚至能做到更丰富的交互。
以前大家不用 HTML 做课件，是因为网页制作有技术门槛，不是人人都能写。但现在不一样了，AI 编程工具的出现，让普通人也能快速生成页面、调整样式、实现交互，原本专业的事情变得大众化。

这就很像 SaaS 软件和自主开发的区别。
SaaS 是别人做好一套功能，你在框架里使用，方便但受限；PPT 也是一样，是一套固定好的演示工具，你只能在它的规则里排版、加动画。
而 HTML + AI 编程，更像是自己动手搭建，自由度更高、格式更开放、拓展性更强。

我去年安排团队做过 AI PPT 工具，自己写过一些从0到1的代码，实际感受并不好：PPT 格式封闭、结构复杂，AI 去解析、生成、修改成本高、耗时长，功能也多局限在模板替换，很难真正灵活发挥。

反观 HTML，优势就很突出：
• 开放标准，AI 更容易理解和生成
• 制作更快、成本更低，不用复杂渲染引擎
• 图文、翻页、交互都能轻松实现，展示效果不输 PPT
• 浏览器直接打开，跨设备适配，修改也更方便

去年 9 月，我的几场讲座就全程用纯 HTML 做课件。效果图文并茂，翻页流畅，整体体验比 PPT 更顺手，修改效率也高很多。（因为，我用AI编程工具来修改）

放到 AI 时代这个大背景下看就更清晰了：
当内容生产不再只是“人创作、人演示”，而是加入大量 AI Agent 协作，开放、易解析、易协作的格式，就会比封闭、封装好的工具更有优势。

PPT 曾经解放了演讲的生产力，让每个人都能做出像样的演示；而 AI + HTML，则进一步解放生产力，让每个人都能跳出固定模板，自由搭建更适合自己的展示方式。

5 00

mingsheng1

4天前

从Anthropic套餐禁止OpenClaw，谈谈AI自动化冲击互联网流量商业模式

昨天（4月5日），Anthropic发布新规，Claude Pro、Max包月套餐禁止OpenClaw这类第三方AI智能体工具调用，需单独购买按量计费。原因在于，这类套餐原本面向人类日常手动使用设计，用户频次可控。OpenClaw这种智能体能7×24小时自动化调用，单个账号算力消耗远超包月费用，平台无法承受激增的成本压力。

自动化运行带来成本压力，这个事情让我想起了3个月前的2026年1月，前端开源框架Tailwind CSS也陷入经营危机。该框架原本靠开源免费吸引用户，开发者通过访问官网文档解决使用问题，平台借此实现付费组件、广告及企业服务变现。可AI编程工具普及后，AI可自动完成安装、编码与故障排查，开发者不再需要人工访问官网，直接导致平台流量暴跌，商业收入大幅缩水。

值得注意的是，这两个案例的受众主要以AI开发者为主，这批人对于新技术敏感度高、接受速度快，率先遇到了AI自动化带来的商业挑战，而随着技术的进一步普及，未来会有更多群体、更多场景面临类似的问题，这并非小众领域的个例，而是全行业的普遍趋势。

这一冲击的节奏会有明确的先后顺序，一开始受到影响的会是依托电脑浏览器访问的服务。这类网页端服务操作流程标准化程度高，无复杂系统权限限制，AI容易实现自动化操作，无论是网页查询、内容浏览还是工具使用，AI都能替代人工，绕开所有广告与推荐板块。
随后，冲击会逐步过渡到手机APP生态。随着AI手机助手、系统内置AI能力持续升级，功能不断强化且使用成本持续走低，手机端的各类日常操作也会被AI逐步接管。用户无需手动打开APP、刷页面、点击广告，AI助手便可直接完成购物、资讯获取、服务办理等全流程操作，APP的日活（真人）、页面流量、商业转化都会随之大幅缩水，依托移动互联网的流量变现模式，同样会遭遇严峻挑战。

整个过程并非突发的黑天鹅事件，而是典型的灰犀牛。

一直以来，互联网行业的核心商业逻辑就是流量变现，电商、内容、工具等各类平台，均以DAU（日活跃用户）为核心指标，依靠人类主动的浏览、点击、互动完成商业转化。但AI自动化彻底打破了这一逻辑，当人工操作被AI代理，流量不再是真实人类的主动行为，页面广告、算法排名、用户转化的商业价值都会大幅衰减，整个互联网流量生意的根基都在被动摇。

从AI开发者到普通大众，从电脑网页端到手机APP端，AI自动化的渗透是不可逆的过程，这头灰犀牛已然逼近。对于所有互联网从业者而言，摒弃传统流量思维，提前探索AI时代的新型商业路径，拥抱变化吧。

4 00

mingsheng1

5天前

谷歌Gemma 4来了，利好豆包手机这类AI工具，会弱化手机App
昨天一位老同事兴奋地跟我说，谷歌开源模型Gemma 4已经能在他手机上本地跑起来了，还能识别图片和声音。这件事让我想到了去年火过一阵的豆包手机，当时它的跨App自动操作功能让人特别期待，本来可以类似于今年OpenClaw一样成为一个帮人干活的好助手，但是因为各大手机APP的抵制，再加上Token成本、运行速度的现实问题，这类产品还是没能真正普及。谷歌这个模型的发布，让我看到了豆包手机这种在手机内部运行的AI助手再次崛起的可能性，后续也许要从两条路一起看。一条路，是等手机厂商自己发力，像小米、华为这些厂商都在做本地AI、系统级助手的探索，他们有硬件、有系统、有合规优势，步子会走得稳，但也会相对保守。另一条路，则是个人开发者冲起来，更快、也更大胆地去试错。就像OpenClaw那样，由个人开发者几个月做起来的项目，没有大厂的合规包袱和流程限制，在隐私保护、成本控制这些点上，反而更容易跑出不一样的突破。
在使用模式上，这类助手其实也有两条路线可以走：一种是全自动接管模式，让AI直接帮你做事，但这条路阻力很大，不光权限复杂，还会遇到其他APP不配合、生态不开放的问题。另一种就是陪伴式模式——手机还是你自己在操作、自己做主，AI就在旁边默默看着、陪着你，在合适的时候给点提醒、建议、安慰，不抢控制权。畅想：超越App，手机维度的数字搭档 1. 核心定位：“外挂感官”与“情绪容器” 这个AI不再是一个点开、问问、关掉就走的APP，它是你手机系统里的一个常驻观察者。 • 跨场景陪伴：刷短视频刷到空虚时，它能根据你的使用时长提醒你：“已经刷40分钟了，要不要去阳台站一会儿？” • 社交辅助：在微信里纠结怎么回复老板或另一半时，它能感知当前对话，贴心建议：“按你平时的风格，这样说有点生硬，加个表情会柔和很多。” • 知识沉淀：所有比价、阅读、会议记录，都会慢慢沉淀成你的个人知识库，时间越久，它就越懂你。
2. 技术实现架构：三层感知模型要实现这种深度陪伴，技术上必须从“单次问答”转向“持续实时感知”。 A. 视觉感知：看懂你在做什么利用屏幕读取和系统底层能力，实时“看”你的手机界面。一直截图很耗电，所以只在页面发生明显变化时才分析画面，转成文字理解场景，不存原图，省电又省空间。 B. 语音交互：自然跟你聊天放弃“喊唤醒词才能说话”的老模式，实现无缝对话。你可以一边玩手机一边跟它聊，它能根据屏幕内容实时接话，语气也跟着场景变。 C. 本地记忆：长久记住你的一切在手机本地把你的行为、对话、浏览记录自动整理成结构化记忆，比如：某款跑鞋→价格499→去年收藏过同款，下次遇到相关内容就能立刻关联上。
3. 目前最难的三个技术难题难度一：权限限制现在安卓和iOS对隐私管控很严，长期后台感知屏幕、占用芯片资源很容易被系统杀掉。个人做的话，需要借助工具提升权限，保证AI不会被随意关闭。难度二：记忆串台短时间内频繁切换APP，AI可能会记忆混乱，比如回邮件时突然提到淘宝商品。解决办法是按应用划分场景，不同APP用不同对话逻辑，互不干扰。难度三：手机发热卡顿持续开多模态感知会让手机发烫、降频。所以要做两套模式：平时低功耗只记录文字，你主动提问或遇到复杂画面时，再全力运行。
跨APP AI助手：我自己去年的实践
以上内容并不只是畅想，我自己其实是有一些实践基础的。
去年夏天发现豆包APP（不是豆包手机）的通话功能可以在切换到其他APP继续使用，我自己也尝试AI编程了一个类似App。其实并不复杂，只要在手机上授予这个APP屏幕直播的权限以及后台语音权限，就可以实现这样的功能（使用其他APP，然后同时可以跟豆包APP语音对话）。
按照现在的AI编程工具能力来讲，几个小时就可以把原型做出来。但是，如何让这个AI助手在耗电方面、在反应速度方面、在记忆方面表现更好，那就需要更长时间努力了。当时我调用云服务器上的AI能力，卡顿是非常明显的。
现在有了谷歌这样的模型，可以把大部分的AI处理能力放到本地执行。
我没有觉得要100% 的本地执行，一些复杂的事情还是可以在云服务上执行。

4 22

mingsheng1

6天前

从 OpenClaw 一天上百次调用，聊聊 AI记忆该怎么做

这几天对着Claude Code、OpenClaw源码反复琢磨，又统计了自己OpenClaw的真实调用数据，越梳理越清晰一个核心道理：AI能不能记事儿，从来不是单纯的技术难题，本质是成本能否扛住、产品定位是否匹配的问题。

很多人用AI只图“好用就行”，很少深究：同样是能聊天的AI，为啥有的记不住事，有的能跟着你长期干活？同样是写代码、做自动化的干活型AI，记忆方式的差别为啥能大到天壤之别？先上一组真实数据，看看我的AI使用强度到底有多高——

OpenClaw后台定时任务统计（不含手动对话）：
3月24日：52次
3月25–27日：46次
3月28–29日：44次
3月30日：48次
3月31日：49次
4月1日：48次
4月2日：45次

平均每天后台自动调用约45–50次，涵盖多城市天气播报、工作日股价查询、服务心跳检查、家庭日记增量同步、万年历与日期查询等。再加上主动对话，每天平均72次。后台任务+主动对话+内部工具调用，一天轻松突破100次。

这样的调用强度，让“记忆”这件事的成本爆炸风险被无限放大。而OpenClaw之所以能做到强记忆，核心是它从一开始就不是常规项目——作为亿万富翁玩票性质的项目，它用“钞能力”打破了普通AI的成本枷锁，也走出了完全不同的产品路径。

先分清两类AI：定价与定位，天差地别

市面上的AI助手，看似都能聊天对话，实则分属两种完全不同的产品逻辑，定价、记忆能力、使用上限，从根上就不一样。

一、聊天消遣型AI：免费/低价，记忆只是“锦上添花”

像ChatGPT标准版、Gemini、豆包、元宝、文心一言这类，主打日常问答、闲聊、简单文案生成，是典型的“消遣型”。
它们的模式高度统一：

• 定价极低甚至免费，靠海量用户分摊成本；

• 人均日使用次数极少，大多在3～6次；

• 记忆能力普遍薄弱——大部分只有单会话上下文，关掉对话就“清零”；长期记忆要么没上线，要么只对少量付费用户灰度开放。

核心逻辑很直白：低价/免费→必须严控成本→记忆能省则省。对这类AI来说，基础问答够用就好，强记忆反而会成为成本负担，完全没必要。

二、干活生产力型AI：收费更高，记忆是“刚需”

而Cursor、Claude Code、Copilot这类，定位是写代码、做工程、跑复杂自动化任务，属于“干活型AI”，是真正的生产力工具。
它们的特点也很鲜明：

• 收费明显更高，多为按月订阅，单价远超普通聊天AI；

• 用户使用更频繁、任务更重，对对话连续性、长期记忆的要求极高；

• 记忆必须成为核心能力，不然根本没法跟进复杂项目。

但即便如此，这类平台依然会设置上下文额度、调用次数限制——因为就算是付费用户，无限放开强记忆，成本也会彻底失控。

所以规律很明显：越能干活的AI，越贵；越贵的AI，记忆才敢做得稍强，但仍有明确边界。

同样是干活AI，记忆设计差距为何巨大？

即便都定位为生产力工具，不同产品的记忆思路，也完全不在一个维度，核心差异体现在三类设计范式上。

1. 编辑器插件型（以Copilot为代表）

• 记忆范围极窄，仅包含当前编辑文件+最近几轮对话；

• 几乎没有跨会话、跨天记忆，重启编辑器就“失忆”；

• 适合单次代码编写、临时小任务，完全不适合长期项目跟进。

2. 会话助手型（以Claude Code为代表）

• 依赖用户手动维护一个项目说明文件，启动时把所有内容全塞进上下文；

• 没有智能检索、没有索引、没有时间权重，只是简单的静态文本；

• 随着内容增多，文件越来越大，不仅容易卡顿，还会疯狂消耗token，成本直线上升；

• 本质是“人工管理的静态笔记”，而非真正的动态记忆系统。

3. 长期个人助手型（以OpenClaw为代表）

• 记忆是系统级能力，自动采集、自动归档、自动检索，全程无需用户干预；

• 支持跨会话、跨天、跨任务持续记忆，能长期跟进你的各类需求；

• 内置压缩、召回、权重机制，兼顾记忆效果和成本消耗；

• 最关键的是，你可以自主配置模型，使用上限完全由自己掌控。

OpenClaw的核心差异：自部署+自选模型，掌控成本与上限

这也是它和所有SaaS型干活AI最大的区别——它不是封闭的订阅服务，而是可自主部署、自由搭配模型的工具。

你可以根据不同场景，灵活选择模型：

• 用便宜的小模型处理日常调用、心跳检查、基础数据查询，大幅降低成本；

• 遇到复杂思考、记忆整理、深度任务时，再切换更强的大模型保证效果；

• 调用次数、记忆强度、上下文大小，全部由你自己决定，没有平台限流、额度限制、功能阉割。

对我这种一天调用超100次、后台24小时跑定时任务的用户来说：

• 封闭SaaS型AI要么太贵，要么限制太多，根本无法长期稳定使用；

• 只有自部署+灵活选模型的模式，才能在“强记忆”和“低成本”之间找到平衡，适配我的高频使用需求。

也正因为如此，OpenClaw的记忆机制必须做得更克制、更精细——它的使用强度和上限，本就比普通AI高一个档次，容不得半点浪费。

高频调用下，记忆的成本到底藏在哪？

很多人误以为AI记忆就是“存点文本”，其实背后是一整套成本链路，每一环都离不开真金白银的投入。

1. 加工记忆的成本

每一段记忆都需要提炼、压缩、结构化，才能适配AI的理解逻辑。这个过程中，每一次提炼、每一次转换，都会消耗大量token，也就是实打实的成本。

2. 存储与检索的成本

随着记忆数量越来越多，索引搭建、数据检索、数据库维护的开销都会持续上升。记忆越丰富，检索的复杂度和成本就越高。

3. 塞入上下文的成本（最关键）

这是记忆成本的核心大头。每次调用AI，都要把相关记忆内容塞进上下文里，调用越频繁，上下文长度就越长，token消耗就越夸张，成本自然水涨船高。

这就解释了为什么：

• 免费聊天AI不敢做强记忆，成本根本扛不住；

• 收费干活AI也不敢无限放开记忆，否则会陷入成本危机；

• 只有自部署的OpenClaw，能通过精细化的记忆架构，在“强记忆”和“低成本”之间找到最优解。

最后说句实在的

看遍各类AI助手的设计逻辑，再对照自己一天上百次的真实使用量，结论其实很直白：AI记忆的差距，从来不是“聪不聪明”，而是“配不配得上你的使用强度”。

• 聊天AI：免费/低价→用户使用轻量→记忆弱，基础需求够用即可；

• 普通干活AI：收费更高→使用更重→记忆稍强，但受平台成本限制，有明确边界；

• OpenClaw这类自部署工具：自选模型、自主控成本→使用上限更高→记忆必须搭建完整架构，兼顾效果与成本。

没有绝对完美的记忆机制，只有最适配你使用方式的那一种。当你真正把AI当成24小时在线的私人管家，就会明白：记忆从来不是一个孤立的功能，而是支撑整个AI产品的底层架构。

4 12

mingsheng1

7天前

元宝水平的确是有点差呀。
刚才把一段聊天记录给他，一开始说没看到聊天记录，跟他说已经发给他了，他给我一顿胡编。
这个对话总结完全是扯淡，一点真实成分都没有。

1 41

mingsheng1

7天前

人与人是不同的，AI Agent也是不同的

这几天AI圈比较热闹的事，Claude Code 的代码被泄露出来了。我也好奇去翻了翻，和两个月前翻看过的OpenClaw对比，再结合自己了解的一些AI项目，有一个感受：同样是 AI Agent，AI 编程助手和我们平时用的 AI 搜索、AI 客服，在设计思路、代码实现上完全不是一个路子。

它们虽然都叫“智能体”，但一些是帮你深度干活、长期跑任务的“搭档”，另一些更像是快速回答、一次性服务的“问询台”。

比较关键的几个差异：

• 它是跑在你自己电脑上，还是跑在服务器上？

• 是只给你一个人专用，还是一堆人共享？

• 是只回答问题，还是能真正替你操作、调度、执行一整套流程？

这些看似很小的实现细节，决定了一个 AI Agent 到底能做什么、适合什么业务、值不值得落地。

因为这次看源码，我系统性地梳理了一下：
现在市面上的 AI Agent，到底可以分成哪些类型？
先搞懂 4 个关键点，就能看懂所有 AI Agent

1. 反应快不快
有些AI Agent要秒回，有些可以几分钟、几个小时甚至几天给结果。

2. 一次要干多久
有的问一句就结束，有的要连续干几天。类似我此前提到的机场问询台vs高管助理。

3. 成本贵不贵
就是客服，卖机票的、卖演唱会门票的、卖酒的......可接受成本差别迥异，背后的模型类型和调用次数也就不一样。

4. 过程能不能出错
写代码，过程出错无所谓，试探几次结果对了就好；客服不可以，你不能让AI给一个客户说三套话术。

就这四条，足够你判断任何一个 AI Agent 适合不适合你的场景。我把常见 AI Agent 分成 8 类：

1. 总调度型 Agent（老板型）

它不做具体执行，而是负责：
分任务、派活、协调其他 AI、盯进度、处理意外。
适合复杂业务、跨系统流程、大型自动化运营。

2. 代码与文档型 Agent

专门写代码、改 Bug、生成报告、处理法律或财务文档。
特点是：过程可以出错但是结果要符合验收标准，逻辑要强、能读长内容。
典型代表就是 Claude Code 这种 AI 编程工具。

3. 情报整理型 Agent

帮你盯行业新闻、扒竞品动态、汇总舆情、生成日报。
要求信息真实、不乱编、速度快。

4. 客服行政型 Agent

就是我们最常见的 AI 客服。
特点是：快、便宜、标准化、不乱说话。
一次性问答为主，不做深度决策。

5. 导购推荐型 Agent

根据你的喜好推荐商品、旅行方案、保险配置等。
需要多轮聊天、记住偏好、引导需求。

6. 内容创作型 Agent

写文案、想标题、做脚本、搞创意。
一些底线不能突破，在此之上不要求百分百精准，但风格要对、表达要顺。

7. 学习陪练型 Agent

用来培训员工、教技能、带新人、做复盘。
可以长期陪伴、慢慢提升，不追求立刻出结果。

8. 经营增长型 Agent（业务常用）

帮商家看数据、做诊断、提运营建议、自动上活动、投广告、优化预算。
直接和营收挂钩，所以数据要准、建议要靠谱。

这次看完 Claude Code 我一大体会是：
AI 真正的未来，不是更会聊天，而是更会干活。不是回答问题，而是替人执行。

AI 搜索、AI 客服很有用，但它们属于“轻量型、一次性”的 Agent。而像 Claude Code 这样的 AI 编程助手，代表的是另一类更强大、更深度、更长期的工作模式。

还有很重要的一点，Claude code内含的逻辑就是知道AI会犯错，他们的代码表达了他们的理念：AI 会遗忘、会写错、会幻觉。所以整个系统不是“让 AI 不犯错”，而是“让 AI 犯错也能兜住、自动修好”。

人无完人，重要的是人岗匹配，以及多人协作机制。AI、AI Agent也不完美，要找到适合你特定场景的模型和Agent模式。

2 00

mingsheng1

7天前

刚才听一个关于AI采购的播客，听了一会不想听了，因为太夸张了。采购流程降低到几毫秒，你咋不说几纳秒呢？
我认可AI在采购流程中的价值。例如信息的抓取、分析，以及对于产品的评测。但是这种把时间降低到几毫、成本接近为零的说法，就属于大忽悠了。

3 20

mingsheng1

8天前

穿Prada的女魔头又要上演第二部了，我跟AI助手聊了聊：
电影里所有“精明、干练、专业、高级”，全都是表象

真正的底层逻辑只有一句：

时尚杂志 + 时尚编辑 = 奢侈品品牌的高级销售与形象背书团队。

• 普拉达、香奈儿、迪奥这些品牌，负责造高价商品

• 杂志、主编、编辑们，负责造高级感、造梦、造身份认同

• 两者一配合，就能让普通人觉得：
“买这个包，我就变高级了。”

所以：

• 米兰达所谓的“品味、眼光、权威”，本质是品牌赋予的话语权

• 杂志所谓的“引领时尚”，本质是引导消费

• 安迪所谓的“成长、干练”，本质是学会了怎么更高效地帮品牌讲故事、卖东西

她们越专业、越苛刻、越精准，
就越能让品牌的东西显得值钱、值得疯抢。

5 10

mingsheng1

8天前

跳出工具做AI：从“人操作软件”到“AI调度一切，人只做总指挥”

年初我曾写过一篇展望，核心判断一直很清晰：
一味往现有工具里堆砌AI助手，走到极致也只是优化，算不上真正的变革。
走过这三个月，行业的走向让我更加笃定这一点。

放眼当下，不少产品仍在沿用旧思路：

• Office、WPS 内置AI写作、智能总结

• 修图、设计工具加上AI生成与智能美化

• 各类文档、聊天、数据平台纷纷标配内嵌AI助手

• 就连一年前的AI编程工具，也只是在IDE侧边挂载助手，短时对话、小范围改码

这些都属于同一套逻辑：在工具内部做AI。
路径始终是：人打开软件 → 人操作工具 → AI在旁辅助。
AI被局限在单一应用之内，只能完成碎片化、短周期的辅助工作，一旦涉及跨工具、长流程、复杂协同的任务，便难以承接。

其实行业在一年多前就出现过一次重要转向：
从 Copilot 走向 Agent，从固定工作流转向具备自主行动能力的智能体。
业内普遍意识到，AI不应只被动响应，更要主动推进任务。
可即便进入Agent时代，绝大多数仍只是工具内智能体——
名字看似前沿，本质仍是升级版助手，依旧没有跳出单一软件的边界。

真正的进化，不是让AI更精通某一个工具，而是把AI放到所有工具之上。

思路需要彻底翻转：
不再是人逐个操作工具、AI随行辅助；
而是让AI作为统一的智能中枢，主动调度、串联、协同各类工具，自主推进长期且复杂的任务。
人不必再深陷执行层，不用在不同应用间反复切换，也不必逐一下达细碎指令。

人的角色，将真正升级为总指挥：
只负责设定目标、把控结果、做出关键决策，剩下的执行、调度、衔接、迭代，全部交由AI完成。

现实约束：模型能力与成本的平衡考验

想要实现“AI统一调度、跨工具长期执行”的效果，对模型能力有不低的要求，通常需要使用行业内表现靠前、能力成熟的SOTA模型，才能支撑复杂规划、工具串联、长上下文理解与稳定决策。但现阶段这类模型整体供给有限，调用成本也偏高，想要面向大量用户普及推广，还需要解决这些现实问题。

如果出于成本、供给或其他限制，改用效果一般的模型，整体体验会明显下降：任务规划容易出现偏差、工具调用不稳定，复杂流程执行成功率也会降低。这样一来，不仅很难体现出“AI调度一切”的价值，还会影响团队对项目的信心，甚至动摇大家对AI Agent实际落地的预期。这也是“工具之上的AI”从理念走向规模化应用，必须面对的现实瓶颈。
---

AI编程领域的变化，就是最直观的缩影：

• 一年前：AI只是IDE旁的短时助手，对话几分钟，工作几分钟

• 如今：AI跳出IDE边界，调度整个开发环境，承接长周期任务、全流程工作

这一领域的演进，也映照出整个行业的未来。

当下随处可见的内嵌AI，本质上都是AI发展初期的阶段性形态。
它们提升了单点效率，却没有真正把人从重复操作中解放出来。

下一阶段的核心机会，其实可以用一句话总结：
不在工具里做AI，而在工具之上做AI；
不是人使用工具，而是AI替人调度一切，人只做总指挥。

4 03