AI 真正可能改变企业的地方,不是多写几段文案、多做几张表,也不是给每个岗位配上对应的智能体。
更大的变化,是把企业变成软件。让它可以不断试,不断改,不断靠近更好的状态。
复杂系统很少一次成型。好的流程、组织或者产品,往往不是在会议室里拍出来的,更像是在泥地里一步步趟出来。先探一脚,发现不对,再退回来重走。看上去笨,甚至有点慢,但商业里真正可靠的东西,大多就是这样磨出来的。
市场每天都在大浪淘沙。公司提供产品和服务,赌客户愿不愿意买单。有些公司苟下来,继续发育;有些公司被淘汰。公司内部也一样。人来人走,临时实验慢慢变成固定流程,流程跑久了,又沉淀出一堆说不清道不明的经验。产品不停更新或被砍掉;新制度总在发布,也会在执行中走样。
今天我们习以为常的商业效率,就是这样一点点积累出来的。未来的人回头看我们,也会觉得今天的公司落后,流程慢、系统粗糙。
关键在于,AI 是否能把自我修正的速度再往前推一截。
如果每家公司都能更快接近自身的理想状态,就有机会创造出巨大的价值。很多原来被流程、层级、审批卡住的瓶颈,也可能慢慢松开。
但眼下大家使用 AI 的方式大概率还不是最优解。常见的三个毛病:浪费、健忘,还不准。
先说硅谷前段时间流行的 Token 消耗竞赛——奖励排行榜上烧得最狠的人。它不一定代表进步,很多时候更像一场集体自嗨。
这场风潮本来就是模型公司带起来的,效果还出人意料地好。
可以这么理解:头部模型公司推出了一堆智能体产品,把它们派进客户公司干活。这些智能体像外包员工,坐在客户公司里,花着客户的钱,最后账还是回到模型公司自己兜里。
客户为了拿折扣,先承诺一笔模型调用额度。公司内部再鼓励员工尽量用智能体。很快各种数据看板就出来了。谁用得多,谁看起来就更像 AI 创新者。智能体用得越多,公司似乎就越能证明自己拥抱 AI。
当然,也有人觉得不对。
这些智能体到底做出了什么有用的东西?除了做数据看板,能不能拿一个真正有业务价值的案例出来看看?
但他们经常被一句万能话术怼回去:那是你不会用。
于是故事变成了:确实有人做出了巨大价值,只是你没见过;你做不到,是你能力不行。听起来就像有人总说自己认识一个特别厉害的朋友,但谁也没见过。
一段时间里,很多硅谷公司都被这种论调裹挟。没有人有动力站出来说:这些 Token 可能没有产生多少价值。
和一个保险公司里负责 AI 的人聊,对方说,这个季度 AI 进展很大,使用量上去了,做了 很多个智能体。听起来很热闹。可再问一句:识别欺诈的准确率测了吗?
对方说,测了,大概一半。
问题是,真正做业务,50% 没用。很多流程需要接近 99%,甚至更高。识别、承保、理赔、审批、风控,这些工作不能靠“差不多”。差一点,可能就是误赔、漏审、合规事故和客户投诉。
但对于很多公司而言,模型还在进步,同行都在加码,你也不想当那个显得保守的人。于是企业继续把智能体应用到所有场景,希望它们最终独当一面。
偏偏这时候,模型公司也在从订阅收费转向按消耗收费。企业还没反应过来,费用已经开始飙升。
Token 用量暴涨,模型公司的收入跟着暴涨,并不奇怪。但这样的泡沫早晚会破裂。
Uber说,才到 4 月全年的 AI 编程预算就已经烧光了。高管后来也承认,AI 的钱花得越来越多,但到底有多少变成了实际产品功能,越来越说不清楚。
这件事像有人先戳破了窗户纸。刚开始大家都在硬撑,等第一个巨头承认预算烧光,其他人也陆续开始倒苦水。
于是我们看到各种新闻,比如有家小公司不小心烧掉了巨额模型费用、某大型电商关掉了 Token 排行榜。有创业公司技术负责人说,纯粹是诱导大家为了数据好看去刷量。其实这种手法很老套,就是把真金白银变成一串数字,让人对真实成本失去感觉。
问题的根源在于,企业把 Token 消耗当成了价值本身。
每一波风口都有自己的荒唐指标。
早年共享单车热,很多人盯投放量。车投得越多,好像公司越强。结果很多城市街头堆满了废铁。
团购大战时,很多人盯交易额。只要流水够大,故事就还能讲下去。至于是不是真赚钱,先放一边。
再往后,电商盯 GMV。数字越高,估值越好看。补贴、退货、履约成本、真实利润,都说以后会解决。
这一轮,虚荣指标变成了 Token 消耗。
招一个员工,你会问他能不能创造超过工资的价值。投广告、扩门店、上系统,本质上都一样。钱花出去,总得换回东西。
Token 也不能例外。所谓 Token 回报率,说白了就是:花出去的每一分钱计算费,能不能换回更高的产出。能,那就是投资;不能,那就是账本上的窟窿。
小学生也能懂的计算公式:
Token 回报率 =(产出 - Token 成本)/ Token 成本 × 100
要把这笔账算好,只有两条路。要么同样的 Token 做出更有价值的事,要么同样的事少花 Token。最好的情况,是花得更少,产出更多。
企业最先盯上的,通常是降成本。原因很简单,创造的价值不好量化,账单却很好算。
不少人开始谈模型路由。简单说,就是特别难的任务,用最强最贵的模型;普通任务,用便宜得多的开源模型或小模型。也有人判断,未来一两年,大部分任务会跑在便宜得多的模型上,只有少数任务还会继续使用最先进的大模型,比如科学突破、高阶推理这类任务。
这个方向没错。但它仍然不是最优解。
因为代码比便宜的模型还要便宜。
老老实实、执行路径固定的代码,不仅便宜,而且更适合大多数有经济价值的工作。这个道理我们其实早就学过。
过去,公司雇人做各种重复任务。早在电子计算机发明前,“计算员”(Computer)这个词指的正是专门从事人工计算的职员。后来,我们开始把大量重复计算交给软件。比如导弹轨迹计算、企业利润核算、财务报表处理。代码比最可靠的人更可靠。它不会疲劳,不会走神。只要公式和输入一样,任何时间、任何地点,结果都一样。
如今我们反而忘了这件事。大家突然觉得,应该把智能体派到所有任务上,因为别人都在这么干。智能体当然有擅长的事情,但它们不是所有工作的合适解法。
有人会说,企业现在没得到回报,是因为还没有把组织重构成 AI 原生公司。这话有一部分道理。有些 AI 时代的新公司,确实用得很好,收入增长也很快。如果旧经济无法产生回报,那可能就是创造性破坏。
但问题不只在会不会用。往深了说,是架构不对。智能体并不适合处理大多数工作。
原因有三个。
第一,智能体很难长期稳定地做到真实业务需要的质量。
智能体会即兴发挥。每次处理重复任务,都像第一天上班一样重新来一遍。这样很难保证稳定准确率。做原型、数据看板,80% 的准确率可以接受。可放到保险公司的流程里,80% 就等于不可用。
第二,工程师不知道该做什么,因为他们并不做这些工作。
很多流程性工作,一部分写在制度里,更多藏在人脑里。一个岗位上可能有成百上千条隐性规则。为什么这单要退回?为什么这个客户要人工复核?为什么这一步可以跳过?为什么那一步必须补材料?
这些规则不会老老实实躺在流程文档里。它们藏在老员工递给新人的一句“这个客户先别动”里,藏在主管说“这事看情况”的语气里,藏在某个大客户多年积累下来的特殊口径里,也藏在财务、法务、销售、运营之间谁都知道但谁都不写下来的默契里。
有些规则不是规则,是人情;有些例外不是例外,是历史包袱;有些审批不是审批,是责任转移。它们不在工程师的工位上,也不在标准作业流程里。坐办公室的程序员只看文档,很难闻到现场的味。
AI 只能优化它能摸到的东西。这也是为什么 AI 在写代码上进展快,在企业内部流程上却经常做不出真正有用的东西。
第三,很多系统根本没有明确目标。
如果人说不清目标,智能体也不会有目标。没有目标,系统就不知道该往哪儿走。代码不管是人写的,还是智能体生成的,最后都会越堆越乱。因为连好坏都分不清,就谈不上优化。
智能体最诱人的地方,也正是最危险的地方。你可以在自己还没想清楚问题时,就把它放出去。给它一个模糊指令,它转一圈,带回来一个还行但不够好的结果。你再让它继续转。这个过程会消耗更多 Token,但未必创造价值。
Token 回报率变成负数,往往就是这样开始的。
现在很多人到处找新任务交给智能体,默认 AI 会像改变代码一样改变一切。未必。
大量工作,最适合的工具仍然是普通代码。过去的问题是,工程师不够多,没法把每家公司做的每件事都写成代码,更没法在规则变化时持续更新。现在情况变了。AI 让写代码变容易了。只要能把人脑里的业务知识挖出来,就有机会把企业变成代码。
AI 定位是编译器,而非运行时。
软件大体分两步。先想清楚要做什么,再执行。
第一步是思考。把目标、规则和要求整理出来,变成计算机能运行的代码。
第二步是执行。代码一遍遍跑。便宜,稳定,可预测。
计算机科学里,编译器有严格定义。但放宽一点看,软件公司和软件工程师也像编译器。他们把客户的目标和需求变成代码。客户买下代码,再反复运行。
这就是软件生意的厉害之处。一个产品开发花了几百万,最后每月卖20还能有很高利润。原因很简单,开发很贵,复制和运行很便宜。
现在很多人使用智能体,是让它同时替代软件公司和软件。这个理解有问题。
更合理的分工是让智能体替代软件公司的部分工作。它接收自然语言里的目标和要求,把它们编译成可反复运行的代码。
思考很贵,但不用时时发生。执行很便宜,而且要一直发生。
智能体负责思考,代码负责执行。
大多数经济活动的合理方式是:人先把规则弄清楚,AI 把规则写成代码,然后让代码以接近零 Token 成本长期运行。只有规则变化时,再把 AI 叫回来。
为什么要用提示词去算两个数相加?写一行 Python 就行了。
现在很多 AI 项目里,思考和执行的比例大概是 1000:1。这也不奇怪。科技圈向来把“思考”挂在嘴边。但工作的大部分不是思考,而是执行。
聊天是少数例外。聊天里,你确实不知道下一句会发生什么。客户服务聊天可能还会继续消耗大量推理成本。即便如此,复杂问题最后也常常要转给人。除了这种场景,企业里大多数工作并不是持续即兴发挥。
把智能体放在执行层,本身就有问题。
智能体当然能做事,但它更像过渡方案。让它每天重复跑同样的流程,就像让一个人天天重新手算本来可以写进表格的公式。能算不代表应该这样算。真正承担大部分重复工作的,仍然应该是执行路径固定的代码。
智能体的角色,是把业务逻辑编译成代码,不是每天亲自上阵做重复工作。它更像一次性投资,把能力沉淀成资产;不是日常开销,天天按调用量烧钱。很多人以为未来是 AI 在运行企业,其实更可能是代码在运行企业,只是这些代码由 AI 帮忙写出来,并在变化时持续更新。
所有人都以为变化会发生在 AI 身上——AI 会越来越像人。但更大的变化可能是企业越来越像软件。
关键不是让智能体每天替代软件干活,而是让 AI 把企业逻辑编译成软件。
更合理的流程是这样:先收集企业已经写下来的制度、流程和表格,再进入真实工作现场,看一线人员到底怎么处理任务。要反复追问:你刚才做了什么?为什么这么做?如果换一种情况呢?这个客户为什么特殊?这个单子为什么要先放一放?这一步为什么不能在系统里点?
只有这样,才可能挖出每家公司真正依赖的隐性规则。然后,再把这些规则写成代码。
代码才是运行层。
外部世界没变时,代码每次都按同样步骤执行。外部世界变了,系统再学习、再生成、再测试。新规则经过目标检验后,再变成新的代码继续运行。
这样,Token 就不会耗在日常重复执行上,而会用在更关键的地方:理解变化,更新规则,测试结果,重新生成。
Token 的价值会提高,因为它处理的是企业真正反复需要完成的工作。Token 的成本会下降,因为它不再用来让智能体每天从头想一遍。
这才是清楚可衡量的 Token 回报率。
每家公司最后都得重新变成软件公司。有些新公司会从一开始就按这种方式建立。有些可能已经存在几十年甚至上百年老公司,也可能需要重新改造自己。
很多人喜欢拿电力做类比。过去企业只有围绕电力重新设计工厂,才真正吃到电力红利。可不少人把这个类比用错了,他们以为 AI 时代的胜利者,是那些敢于靠堆算力、堆资源来暴力解决问题的公司。
未必。
企业真正该做的,是把自身重构成代码。
这不是坐在办公室里写几个提示词就能完成的。它需要深入一线,进入公司内部最复杂、最脏乱、最具体的地方。你得知道那些岗位每天到底在干什么,为什么这么干,哪些规则写在纸上,哪些规则只在老员工脑子里。
这件事一直就不容易。但至今为止的 AI 时代有着严重的误判,就是以为真正值得做的事都可以很轻松。
向来只有不轻松的事才值得做。因为支撑这个世界的很多机构,不管是企业还是政府,都在做大量低效甚至不合理的事。流程慢,环节多,责任不清,系统一点点堵塞。
更好的目标,是为每家公司找到一套更接近理想状态的流程。一套更适合达成目标的计划和步骤。世界一旦变化,我们就得随之调整流程。
AI 的角色,不该是每天即兴发挥的智能体。它更应该像一种推动规则更新的力量,发现问题、调整规则并测试结果。找到更有效的方案,就先按这个方案执行,直到更好的方案出现。
企业也可以成为不断迭代的软件,不断测试和评估自己,用更快的频率接近更合适的状态。
人要做的,不是手把手规定每一步怎么走,而是定义什么结果值得追求、什么边界不能突破。
过去问“如果这么改会发生什么”,很多时候只能靠经验猜。现在可以快速回测,几分钟内跑完过去的数据,看看如果采用另一套规则,结果会怎样。甚至可以让两套方案在旁路系统里同时跑一段,比较结果,再决定用哪种。
如果方法得当,风险就会下降,因为改变不再只是冒险,而变成一种选择。于是我们真正要面对的问题是,哪种结果更理想。
生成代码已经不难,难的是知道代码跑起来以后会发生什么。专家可以不断实验,提出各种假设。人不再被重复劳动卡住,就可以把精力放在寻找更好的方案上。
这才更接近最终解。资源不再主要花在重复执行上,而是花在改进规则上。
企业不该用 Token 来日常运行业务。更合理的用法,是用 Token 把业务变成代码,再用 Token 帮助这套代码继续进化。
重点不是盲目追求 Token 消耗,而是把 Token 回报率算清楚。
复杂且真正有生命力的系统,很少能一次设计就定型,只能在反复试错里出现。AI 的意义不是创造更庞大的官僚机器,也不是让企业在更多 BI 界面里显得更先进。它更有价值的地方,是把人从琐碎重复的流程里解放出来,让人重新回到判断、目标和边界本身。
企业如果真的变成软件,不应该只是变得更冷酷、更效率、更节约人力。它也应该让聪明人少耗在无意义的流程里,让组织少一点空转。
进化的终点不是算力,留下来的应该是更多的想象力,以及更体面的工作。