即刻App年轻人的同好社区
下载
App内打开
mingsheng1
66关注514被关注0夸夸
曾经微博首位产品负责人,现在某电商公司AI应用产品总监。
下班玩🦞,例如搞IM、日记…
计算机系毕业,本不喜欢编程,现在每天AI编程。
mingsheng1
2天前
模型日趋成熟,AI的下一程:比拼工程配套与真实体验

每天刷AI资讯,这几天的感受是:模型仍在持续迭代,能力也在稳步提升。文本理解、自主任务处理、多场景交互等方向,新模型与新基准不断出现,例如:

《Claude Mythos官宣!性能碾压Opus 4.6,因太危险遭「囚禁」》(量子位)

《刚刚,Anthropic祭出最强Claude Mythos!暴击Opus 4.6,跪求千万别用》(新智元)

Claude Mythos这类模型,能力已经强到需要通过限制发布来规避安全风险,这恰恰印证了一个越发清晰的趋势:对多数场景而言,模型基础能力已经可以满足需求。真正影响落地与体验的,往往是模型之外的部分——Harness工程骨架、部署方式、知识库、数据自主权以及更贴合日常的交互方式。

行业讨论也在印证这一转向,多篇文章都聚焦于此:

《我把Karpathy的知识库方法论落地了,效果超出预期》(云小虾)

《深度|对话LangChain创始人:为什么Manus和Claude Code这么强?秘诀不在模型,而在顶级Harness》(Z Finance)

《同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖》(深思SenseAI)

这些内容共同指向一个核心:AI能否真正用好,越来越依赖模型以外的工程体系与配套设施。

我最近在使用AI编程工具时,对此感受尤其明显。单看模型,AI编码能力已经比较完善:理解项目结构、执行命令、排查问题、长时间完成工程任务都比较从容。但落到实际使用,体验上的短板很突出。

我有一个很朴素的需求,技术上并不复杂:

代码存放在我自己的云服务器;

AI在我的服务器上操作文件;

手机上有官方APP,随时查看进度、下发指令、简单干预。

简单说:代码自己掌控,手机随手可控。

但主流工具大多不能顺畅满足。要么强制把代码托管在平台云端,要么只支持桌面端,远程操作体验割裂。像Windsurf这类主打AI工程的工具,甚至没有官方手机APP,更无法实现手机直连自有服务器。

不少工具推出的“云端代理”,也只是把任务跑在平台自己的服务器上,而非我自己的服务器;有的支持代码托管,也只绑定GitHub这类固定平台,没有给用户选择权。

其实 OpenClaw 已经能实现“代码在自有服务器+手机远程操作”的模式,只是它在AI编码上不够专业。我更希望的是:把 Cursor、Codex 这类成熟的AI编程能力,直接部署在我的云服务器上。

这并非个例,而是很多AI应用的共性问题:
模型在持续升级,配套却常常被忽略。
数据是否可以留在自有环境,不是优先考虑;
自定义部署到个人服务器,大多只面向企业版本;
手机端等跨设备操控,体验普遍粗糙;
稳定的执行框架与可预期行为,优先级往往低于 benchmark 表现。

行业越来越多地讨论Harness,也说明大家开始达成共识:
同一模型在不同工程框架下,落地效果差异明显。
AI能否顺畅融入工作流、让人放心使用,更多取决于工程配套。

模型决定能不能完成任务,工程配套决定用得顺不顺、安不安心。

未来AI的竞争,会慢慢从模型能力,转向工程化落地、使用体验与自主可控性。

模型已经走向成熟,现在该好好打磨配套的工程与体验了。
00
mingsheng1
3天前
AI Agent时代,我们还需要 PPT 吗?

早上听十字路口采访Moxt 的播客,有个转变值得琢磨:OpenClaw 出现后,隶属于猿辅导集团的这支AI探索团队,放弃了原本做了几个月类似Lovart 的产品形态,转向 AI 工作空间。
他们说本来是想写一个Markdown文件的共享服务,后来做成了工作空间。一个很关键的选择是:不再用传统 Office,也不用类 Office 的在线文档,转而用 Markdown HTML 来做内容载体。理由也很直接——这种开放格式,更适合 AI Agent 之间高效协作。

这一点我自己也有体会,尤其演示文稿这件事。先回到一个根本问题:当年为什么会出现 PPT?
其实就是为了解决演讲场景的刚需:演讲时需要图文并茂,需要简单的排版和动画,同时要封装成一个编辑简单、操作门槛低、方便传递的文件。
PowerPoint 诞生于 1987 年,由硅谷公司 Forethought 开发,最初只支持苹果 Macintosh 系统,后来被微软收购并成为Office的一部分。在那个大多数人不会写代码、不会做网页、电脑以文本操作为主的年代,演示是专业设计师或技术人员才能完成的事。PPT 把复杂的视觉展示能力封装成傻瓜式工具,让普通人也能快速做出像样的演示,它是为“大众能力不足”这个时代约束量身定做的产品。

今天,这套逻辑已经开始松动。
网页技术本身,完全可以实现 PPT 能做的一切:图文排版、翻页切换、动画效果、全屏演示,甚至能做到更丰富的交互。
以前大家不用 HTML 做课件,是因为网页制作有技术门槛,不是人人都能写。但现在不一样了,AI 编程工具的出现,让普通人也能快速生成页面、调整样式、实现交互,原本专业的事情变得大众化。

这就很像 SaaS 软件和自主开发的区别。
SaaS 是别人做好一套功能,你在框架里使用,方便但受限;PPT 也是一样,是一套固定好的演示工具,你只能在它的规则里排版、加动画。
HTML + AI 编程,更像是自己动手搭建,自由度更高、格式更开放、拓展性更强。

我去年安排团队做过 AI PPT 工具,自己写过一些从0到1的代码,实际感受并不好:PPT 格式封闭、结构复杂,AI 去解析、生成、修改成本高、耗时长,功能也多局限在模板替换,很难真正灵活发挥。

反观 HTML,优势就很突出:
开放标准,AI 更容易理解和生成
制作更快、成本更低,不用复杂渲染引擎
图文、翻页、交互都能轻松实现,展示效果不输 PPT
浏览器直接打开,跨设备适配,修改也更方便

去年 9 月,我的几场讲座就全程用纯 HTML 做课件。效果图文并茂,翻页流畅,整体体验比 PPT 更顺手,修改效率也高很多。(因为,我用AI编程工具来修改)

放到 AI 时代这个大背景下看就更清晰了:
当内容生产不再只是“人创作、人演示”,而是加入大量 AI Agent 协作,开放、易解析、易协作的格式,就会比封闭、封装好的工具更有优势。

PPT 曾经解放了演讲的生产力,让每个人都能做出像样的演示;而 AI + HTML,则进一步解放生产力,让每个人都能跳出固定模板,自由搭建更适合自己的展示方式。
00
mingsheng1
4天前
从Anthropic套餐禁止OpenClaw,谈谈AI自动化冲击互联网流量商业模式

昨天(4月5日),Anthropic发布新规,Claude Pro、Max包月套餐禁止OpenClaw这类第三方AI智能体工具调用,需单独购买按量计费。原因在于,这类套餐原本面向人类日常手动使用设计,用户频次可控。OpenClaw这种智能体能7×24小时自动化调用,单个账号算力消耗远超包月费用,平台无法承受激增的成本压力。

自动化运行带来成本压力,这个事情让我想起了3个月前的2026年1月,前端开源框架Tailwind CSS也陷入经营危机。该框架原本靠开源免费吸引用户,开发者通过访问官网文档解决使用问题,平台借此实现付费组件、广告及企业服务变现。可AI编程工具普及后,AI可自动完成安装、编码与故障排查,开发者不再需要人工访问官网,直接导致平台流量暴跌,商业收入大幅缩水。

值得注意的是,这两个案例的受众主要以AI开发者为主,这批人对于新技术敏感度高、接受速度快,率先遇到了AI自动化带来的商业挑战,而随着技术的进一步普及,未来会有更多群体、更多场景面临类似的问题,这并非小众领域的个例,而是全行业的普遍趋势。

这一冲击的节奏会有明确的先后顺序,一开始受到影响的会是依托电脑浏览器访问的服务。这类网页端服务操作流程标准化程度高,无复杂系统权限限制,AI容易实现自动化操作,无论是网页查询、内容浏览还是工具使用,AI都能替代人工,绕开所有广告与推荐板块。
随后,冲击会逐步过渡到手机APP生态。随着AI手机助手、系统内置AI能力持续升级,功能不断强化且使用成本持续走低,手机端的各类日常操作也会被AI逐步接管。用户无需手动打开APP、刷页面、点击广告,AI助手便可直接完成购物、资讯获取、服务办理等全流程操作,APP的日活(真人)、页面流量、商业转化都会随之大幅缩水,依托移动互联网的流量变现模式,同样会遭遇严峻挑战。

整个过程并非突发的黑天鹅事件,而是典型的灰犀牛。

一直以来,互联网行业的核心商业逻辑就是流量变现,电商、内容、工具等各类平台,均以DAU(日活跃用户)为核心指标,依靠人类主动的浏览、点击、互动完成商业转化。但AI自动化彻底打破了这一逻辑,当人工操作被AI代理,流量不再是真实人类的主动行为,页面广告、算法排名、用户转化的商业价值都会大幅衰减,整个互联网流量生意的根基都在被动摇。

从AI开发者到普通大众,从电脑网页端到手机APP端,AI自动化的渗透是不可逆的过程,这头灰犀牛已然逼近。对于所有互联网从业者而言,摒弃传统流量思维,提前探索AI时代的新型商业路径,拥抱变化吧。
00
mingsheng1
5天前
谷歌Gemma 4来了,利好豆包手机这类AI工具,会弱化手机App
昨天一位老同事兴奋地跟我说,谷歌开源模型Gemma 4已经能在他手机上本地跑起来了,还能识别图片和声音。 这件事让我想到了去年火过一阵的豆包手机,当时它的跨App自动操作功能让人特别期待,本来可以类似于今年OpenClaw一样成为一个帮人干活的好助手,但是因为各大手机APP的抵制,再加上Token成本、运行速度的现实问题,这类产品还是没能真正普及。 谷歌这个模型的发布,让我看到了豆包手机这种在手机内部运行的AI助手再次崛起的可能性,后续也许要从两条路一起看。 一条路,是等手机厂商自己发力,像小米、华为这些厂商都在做本地AI、系统级助手的探索,他们有硬件、有系统、有合规优势,步子会走得稳,但也会相对保守。 另一条路,则是个人开发者冲起来,更快、也更大胆地去试错。就像OpenClaw那样,由个人开发者几个月做起来的项目,没有大厂的合规包袱和流程限制,在隐私保护、成本控制这些点上,反而更容易跑出不一样的突破。
在使用模式上,这类助手其实也有两条路线可以走: 一种是全自动接管模式,让AI直接帮你做事,但这条路阻力很大,不光权限复杂,还会遇到其他APP不配合、生态不开放的问题。 另一种就是陪伴式模式——手机还是你自己在操作、自己做主,AI就在旁边默默看着、陪着你,在合适的时候给点提醒、建议、安慰,不抢控制权。 畅想:超越App,手机维度的数字搭档 1. 核心定位:“外挂感官”与“情绪容器” 这个AI不再是一个点开、问问、关掉就走的APP,它是你手机系统里的一个常驻观察者。 跨场景陪伴:刷短视频刷到空虚时,它能根据你的使用时长提醒你:“已经刷40分钟了,要不要去阳台站一会儿?” 社交辅助:在微信里纠结怎么回复老板或另一半时,它能感知当前对话,贴心建议:“按你平时的风格,这样说有点生硬,加个表情会柔和很多。” 知识沉淀:所有比价、阅读、会议记录,都会慢慢沉淀成你的个人知识库,时间越久,它就越懂你。
2. 技术实现架构:三层感知模型 要实现这种深度陪伴,技术上必须从“单次问答”转向“持续实时感知”。 A. 视觉感知:看懂你在做什么 利用屏幕读取和系统底层能力,实时“看”你的手机界面。 一直截图很耗电,所以只在页面发生明显变化时才分析画面,转成文字理解场景,不存原图,省电又省空间。 B. 语音交互:自然跟你聊天 放弃“喊唤醒词才能说话”的老模式,实现无缝对话。你可以一边玩手机一边跟它聊,它能根据屏幕内容实时接话,语气也跟着场景变。 C. 本地记忆:长久记住你的一切 在手机本地把你的行为、对话、浏览记录自动整理成结构化记忆,比如:某款跑鞋→价格499→去年收藏过同款,下次遇到相关内容就能立刻关联上。
3. 目前最难的三个技术难题 难度一:权限限制 现在安卓和iOS对隐私管控很严,长期后台感知屏幕、占用芯片资源很容易被系统杀掉。个人做的话,需要借助工具提升权限,保证AI不会被随意关闭。 难度二:记忆串台 短时间内频繁切换APP,AI可能会记忆混乱,比如回邮件时突然提到淘宝商品。解决办法是按应用划分场景,不同APP用不同对话逻辑,互不干扰。 难度三:手机发热卡顿 持续开多模态感知会让手机发烫、降频。所以要做两套模式:平时低功耗只记录文字,你主动提问或遇到复杂画面时,再全力运行。
跨APP AI助手:我自己去年的实践
以上内容并不只是畅想,我自己其实是有一些实践基础的。
去年夏天发现豆包APP(不是豆包手机)的通话功能可以在切换到其他APP继续使用,我自己也尝试AI编程了一个类似App。其实并不复杂,只要在手机上授予这个APP屏幕直播的权限以及后台语音权限,就可以实现这样的功能(使用其他APP,然后同时可以跟豆包APP语音对话)。
按照现在的AI编程工具能力来讲,几个小时就可以把原型做出来。但是,如何让这个AI助手在耗电方面、在反应速度方面、在记忆方面表现更好,那就需要更长时间努力了。当时我调用云服务器上的AI能力,卡顿是非常明显的。
现在有了谷歌这样的模型,可以把大部分的AI处理能力放到本地执行。
我没有觉得要100% 的本地执行,一些复杂的事情还是可以在云服务上执行。
22
mingsheng1
6天前
OpenClaw 一天上百次调用,聊聊 AI记忆该怎么做

这几天对着Claude Code、OpenClaw源码反复琢磨,又统计了自己OpenClaw的真实调用数据,越梳理越清晰一个核心道理:AI能不能记事儿,从来不是单纯的技术难题,本质是成本能否扛住、产品定位是否匹配的问题。

很多人用AI只图“好用就行”,很少深究:同样是能聊天的AI,为啥有的记不住事,有的能跟着你长期干活?同样是写代码、做自动化的干活型AI,记忆方式的差别为啥能大到天壤之别?先上一组真实数据,看看我的AI使用强度到底有多高——

OpenClaw后台定时任务统计(不含手动对话):
3月24日:52次
3月25–27日:46次
3月28–29日:44次
3月30日:48次
3月31日:49次
4月1日:48次
4月2日:45次

平均每天后台自动调用约45–50次,涵盖多城市天气播报、工作日股价查询、服务心跳检查、家庭日记增量同步、万年历与日期查询等。再加上主动对话,每天平均72次。后台任务+主动对话+内部工具调用,一天轻松突破100次。

这样的调用强度,让“记忆”这件事的成本爆炸风险被无限放大。而OpenClaw之所以能做到强记忆,核心是它从一开始就不是常规项目——作为亿万富翁玩票性质的项目,它用“钞能力”打破了普通AI的成本枷锁,也走出了完全不同的产品路径。

先分清两类AI:定价与定位,天差地别

市面上的AI助手,看似都能聊天对话,实则分属两种完全不同的产品逻辑,定价、记忆能力、使用上限,从根上就不一样。

一、聊天消遣型AI:免费/低价,记忆只是“锦上添花”

像ChatGPT标准版、Gemini、豆包、元宝、文心一言这类,主打日常问答、闲聊、简单文案生成,是典型的“消遣型”。
它们的模式高度统一:

定价极低甚至免费,靠海量用户分摊成本;

人均日使用次数极少,大多在3~6次;

记忆能力普遍薄弱——大部分只有单会话上下文,关掉对话就“清零”;长期记忆要么没上线,要么只对少量付费用户灰度开放。

核心逻辑很直白:低价/免费→必须严控成本→记忆能省则省。对这类AI来说,基础问答够用就好,强记忆反而会成为成本负担,完全没必要。

二、干活生产力型AI:收费更高,记忆是“刚需”

而Cursor、Claude Code、Copilot这类,定位是写代码、做工程、跑复杂自动化任务,属于“干活型AI”,是真正的生产力工具。
它们的特点也很鲜明:

收费明显更高,多为按月订阅,单价远超普通聊天AI;

用户使用更频繁、任务更重,对对话连续性、长期记忆的要求极高;

记忆必须成为核心能力,不然根本没法跟进复杂项目。

但即便如此,这类平台依然会设置上下文额度、调用次数限制——因为就算是付费用户,无限放开强记忆,成本也会彻底失控。

所以规律很明显:越能干活的AI,越贵;越贵的AI,记忆才敢做得稍强,但仍有明确边界。

同样是干活AI,记忆设计差距为何巨大?

即便都定位为生产力工具,不同产品的记忆思路,也完全不在一个维度,核心差异体现在三类设计范式上。

1. 编辑器插件型(以Copilot为代表)

记忆范围极窄,仅包含当前编辑文件+最近几轮对话;

几乎没有跨会话、跨天记忆,重启编辑器就“失忆”;

适合单次代码编写、临时小任务,完全不适合长期项目跟进。

2. 会话助手型(以Claude Code为代表)

依赖用户手动维护一个项目说明文件,启动时把所有内容全塞进上下文;

没有智能检索、没有索引、没有时间权重,只是简单的静态文本;

随着内容增多,文件越来越大,不仅容易卡顿,还会疯狂消耗token,成本直线上升;

本质是“人工管理的静态笔记”,而非真正的动态记忆系统。

3. 长期个人助手型(以OpenClaw为代表)

记忆是系统级能力,自动采集、自动归档、自动检索,全程无需用户干预;

支持跨会话、跨天、跨任务持续记忆,能长期跟进你的各类需求;

内置压缩、召回、权重机制,兼顾记忆效果和成本消耗;

最关键的是,你可以自主配置模型,使用上限完全由自己掌控。

OpenClaw的核心差异:自部署+自选模型,掌控成本与上限

这也是它和所有SaaS型干活AI最大的区别——它不是封闭的订阅服务,而是可自主部署、自由搭配模型的工具。

你可以根据不同场景,灵活选择模型:

用便宜的小模型处理日常调用、心跳检查、基础数据查询,大幅降低成本;

遇到复杂思考、记忆整理、深度任务时,再切换更强的大模型保证效果;

调用次数、记忆强度、上下文大小,全部由你自己决定,没有平台限流、额度限制、功能阉割。

对我这种一天调用超100次、后台24小时跑定时任务的用户来说:

封闭SaaS型AI要么太贵,要么限制太多,根本无法长期稳定使用;

只有自部署+灵活选模型的模式,才能在“强记忆”和“低成本”之间找到平衡,适配我的高频使用需求。

也正因为如此,OpenClaw的记忆机制必须做得更克制、更精细——它的使用强度和上限,本就比普通AI高一个档次,容不得半点浪费。

高频调用下,记忆的成本到底藏在哪?

很多人误以为AI记忆就是“存点文本”,其实背后是一整套成本链路,每一环都离不开真金白银的投入。

1. 加工记忆的成本

每一段记忆都需要提炼、压缩、结构化,才能适配AI的理解逻辑。这个过程中,每一次提炼、每一次转换,都会消耗大量token,也就是实打实的成本。

2. 存储与检索的成本

随着记忆数量越来越多,索引搭建、数据检索、数据库维护的开销都会持续上升。记忆越丰富,检索的复杂度和成本就越高。

3. 塞入上下文的成本(最关键)

这是记忆成本的核心大头。每次调用AI,都要把相关记忆内容塞进上下文里,调用越频繁,上下文长度就越长,token消耗就越夸张,成本自然水涨船高。

这就解释了为什么:

免费聊天AI不敢做强记忆,成本根本扛不住;

收费干活AI也不敢无限放开记忆,否则会陷入成本危机;

只有自部署的OpenClaw,能通过精细化的记忆架构,在“强记忆”和“低成本”之间找到最优解。

最后说句实在的

看遍各类AI助手的设计逻辑,再对照自己一天上百次的真实使用量,结论其实很直白:AI记忆的差距,从来不是“聪不聪明”,而是“配不配得上你的使用强度”。

聊天AI:免费/低价→用户使用轻量→记忆弱,基础需求够用即可;

普通干活AI:收费更高→使用更重→记忆稍强,但受平台成本限制,有明确边界;

OpenClaw这类自部署工具:自选模型、自主控成本→使用上限更高→记忆必须搭建完整架构,兼顾效果与成本。

没有绝对完美的记忆机制,只有最适配你使用方式的那一种。当你真正把AI当成24小时在线的私人管家,就会明白:记忆从来不是一个孤立的功能,而是支撑整个AI产品的底层架构。
12
mingsheng1
7天前
元宝水平的确是有点差呀。
刚才把一段聊天记录给他,一开始说没看到聊天记录,跟他说已经发给他了,他给我一顿胡编。
这个对话总结完全是扯淡,一点真实成分都没有。 ​​​
41
mingsheng1
7天前
人与人是不同的,AI Agent也是不同的

这几天AI圈比较热闹的事,Claude Code 的代码被泄露出来了。我也好奇去翻了翻,和两个月前翻看过的OpenClaw对比,再结合自己了解的一些AI项目,有一个感受:同样是 AI Agent,AI 编程助手和我们平时用的 AI 搜索、AI 客服,在设计思路、代码实现上完全不是一个路子。

它们虽然都叫“智能体”,但一些是帮你深度干活、长期跑任务的“搭档”,另一些更像是快速回答、一次性服务的“问询台”。

比较关键的几个差异:

它是跑在你自己电脑上,还是跑在服务器上?

是只给你一个人专用,还是一堆人共享?

是只回答问题,还是能真正替你操作、调度、执行一整套流程?

这些看似很小的实现细节,决定了一个 AI Agent 到底能做什么、适合什么业务、值不值得落地。

因为这次看源码,我系统性地梳理了一下:
现在市面上的 AI Agent,到底可以分成哪些类型?
先搞懂 4 个关键点,就能看懂所有 AI Agent

1. 反应快不快
有些AI Agent要秒回,有些可以几分钟、几个小时甚至几天给结果。

2. 一次要干多久
有的问一句就结束,有的要连续干几天。类似我此前提到的机场问询台vs高管助理。

3. 成本贵不贵
就是客服,卖机票的、卖演唱会门票的、卖酒的......可接受成本差别迥异,背后的模型类型和调用次数也就不一样。

4. 过程能不能出错
写代码,过程出错无所谓,试探几次结果对了就好;客服不可以,你不能让AI给一个客户说三套话术。

就这四条,足够你判断任何一个 AI Agent 适合不适合你的场景。我把常见 AI Agent 分成 8 类:

1. 总调度型 Agent(老板型)

它不做具体执行,而是负责:
分任务、派活、协调其他 AI、盯进度、处理意外。
适合复杂业务、跨系统流程、大型自动化运营。

2. 代码与文档型 Agent

专门写代码、改 Bug、生成报告、处理法律或财务文档。
特点是:过程可以出错但是结果要符合验收标准,逻辑要强、能读长内容。
典型代表就是 Claude Code 这种 AI 编程工具。

3. 情报整理型 Agent

帮你盯行业新闻、扒竞品动态、汇总舆情、生成日报。
要求信息真实、不乱编、速度快。

4. 客服行政型 Agent

就是我们最常见的 AI 客服。
特点是:快、便宜、标准化、不乱说话。
一次性问答为主,不做深度决策。

5. 导购推荐型 Agent

根据你的喜好推荐商品、旅行方案、保险配置等。
需要多轮聊天、记住偏好、引导需求。

6. 内容创作型 Agent

写文案、想标题、做脚本、搞创意。
一些底线不能突破,在此之上不要求百分百精准,但风格要对、表达要顺。

7. 学习陪练型 Agent

用来培训员工、教技能、带新人、做复盘。
可以长期陪伴、慢慢提升,不追求立刻出结果。

8. 经营增长型 Agent(业务常用)

帮商家看数据、做诊断、提运营建议、自动上活动、投广告、优化预算。
直接和营收挂钩,所以数据要准、建议要靠谱。

这次看完 Claude Code 我一大体会是:
AI 真正的未来,不是更会聊天,而是更会干活。不是回答问题,而是替人执行。

AI 搜索、AI 客服很有用,但它们属于“轻量型、一次性”的 Agent。而像 Claude Code 这样的 AI 编程助手,代表的是另一类更强大、更深度、更长期的工作模式。

还有很重要的一点,Claude code内含的逻辑就是知道AI会犯错,他们的代码表达了他们的理念:AI 会遗忘、会写错、会幻觉。所以整个系统不是“让 AI 不犯错”,而是“让 AI 犯错也能兜住、自动修好”。

人无完人,重要的是人岗匹配,以及多人协作机制。AI、AI Agent也不完美,要找到适合你特定场景的模型和Agent模式。
00
mingsheng1
7天前
刚才听一个关于AI采购的播客,听了一会不想听了,因为太夸张了。采购流程降低到几毫秒,你咋不说几纳秒呢?
我认可AI在采购流程中的价值。例如信息的抓取、分析,以及对于产品的评测。但是这种把时间降低到几毫、成本接近为零的说法,就属于大忽悠了。 ​​​
20
mingsheng1
8天前
穿Prada的女魔头又要上演第二部了,我跟AI助手聊了聊:
电影里所有“精明、干练、专业、高级”,全都是表象

真正的底层逻辑只有一句:

时尚杂志 + 时尚编辑 = 奢侈品品牌的高级销售与形象背书团队。

普拉达、香奈儿、迪奥这些品牌,负责造高价商品

杂志、主编、编辑们,负责造高级感、造梦、造身份认同

两者一配合,就能让普通人觉得:
“买这个包,我就变高级了。”

所以:

米兰达所谓的“品味、眼光、权威”,本质是品牌赋予的话语权

杂志所谓的“引领时尚”,本质是引导消费

安迪所谓的“成长、干练”,本质是学会了怎么更高效地帮品牌讲故事、卖东西

她们越专业、越苛刻、越精准,
就越能让品牌的东西显得值钱、值得疯抢。
10
mingsheng1
8天前
跳出工具做AI:从“人操作软件”到“AI调度一切,人只做总指挥”

年初我曾写过一篇展望,核心判断一直很清晰:
一味往现有工具里堆砌AI助手,走到极致也只是优化,算不上真正的变革。
走过这三个月,行业的走向让我更加笃定这一点。

放眼当下,不少产品仍在沿用旧思路:

Office、WPS 内置AI写作、智能总结

修图、设计工具加上AI生成与智能美化

各类文档、聊天、数据平台纷纷标配内嵌AI助手

就连一年前的AI编程工具,也只是在IDE侧边挂载助手,短时对话、小范围改码

这些都属于同一套逻辑:在工具内部做AI。
路径始终是:人打开软件 人操作工具 AI在旁辅助。
AI被局限在单一应用之内,只能完成碎片化、短周期的辅助工作,一旦涉及跨工具、长流程、复杂协同的任务,便难以承接。

其实行业在一年多前就出现过一次重要转向:
Copilot 走向 Agent,从固定工作流转向具备自主行动能力的智能体。
业内普遍意识到,AI不应只被动响应,更要主动推进任务。
可即便进入Agent时代,绝大多数仍只是工具内智能体——
名字看似前沿,本质仍是升级版助手,依旧没有跳出单一软件的边界。

真正的进化,不是让AI更精通某一个工具,而是把AI放到所有工具之上。

思路需要彻底翻转:
不再是人逐个操作工具、AI随行辅助;
而是让AI作为统一的智能中枢,主动调度、串联、协同各类工具,自主推进长期且复杂的任务。
人不必再深陷执行层,不用在不同应用间反复切换,也不必逐一下达细碎指令。

人的角色,将真正升级为总指挥:
只负责设定目标、把控结果、做出关键决策,剩下的执行、调度、衔接、迭代,全部交由AI完成。

现实约束:模型能力与成本的平衡考验

想要实现“AI统一调度、跨工具长期执行”的效果,对模型能力有不低的要求,通常需要使用行业内表现靠前、能力成熟的SOTA模型,才能支撑复杂规划、工具串联、长上下文理解与稳定决策。但现阶段这类模型整体供给有限,调用成本也偏高,想要面向大量用户普及推广,还需要解决这些现实问题。

如果出于成本、供给或其他限制,改用效果一般的模型,整体体验会明显下降:任务规划容易出现偏差、工具调用不稳定,复杂流程执行成功率也会降低。这样一来,不仅很难体现出“AI调度一切”的价值,还会影响团队对项目的信心,甚至动摇大家对AI Agent实际落地的预期。这也是“工具之上的AI”从理念走向规模化应用,必须面对的现实瓶颈。
---

AI编程领域的变化,就是最直观的缩影:

一年前:AI只是IDE旁的短时助手,对话几分钟,工作几分钟

如今:AI跳出IDE边界,调度整个开发环境,承接长周期任务、全流程工作

这一领域的演进,也映照出整个行业的未来。

当下随处可见的内嵌AI,本质上都是AI发展初期的阶段性形态。
它们提升了单点效率,却没有真正把人从重复操作中解放出来。

下一阶段的核心机会,其实可以用一句话总结:
不在工具里做AI,而在工具之上做AI;
不是人使用工具,而是AI替人调度一切,人只做总指挥。
03