前两天,一条推文在硅谷AI圈里热议,还被搬到了reddit上。
发推的人叫Guillermo Rauch,是Vercel的CEO。
Vercel这家公司大家应该并不陌生,作为Open AI的合作商,Vercel是一家估值93亿美元的云开发平台,客户名单上还有Netflix、Stripe这些重量级客户。
但Vercel的CEO直接发推晒出了一组内部Agent场景测试结果,算是公开吐槽GPT-5又慢又不准确:
在他们测试中,来自中国的AI模型Kimi K2,完全击败GPT-5和Claude Sonnet 4.5。
GPT-5跑了10分钟,准确率不到40%。
Claude Sonnet 4.5跑了8分钟,准确率不到50%。
而Kimi K2只用了2分钟,准确率超过60%。速度快了5倍,准确率高了50%。
作为OpenAI在2025年开发者大会上重点展示的合作企业之一,Vercel跟OpenAI的关系可以说是绑定级别的。
结果现在CEO公开发推夸竞品,甚至还用了具体数据打脸,说实话,我跟评论区一样感觉不可思议......
先说说Guillermo Rauch这个人,他在开发者圈子里绝对是有分量的。
2015年,他在创立Vercel之前,就已经是开源社区的明星开发者。
他带领团队做出的Next.js框架,彻底改变了前端开发的玩法。写几行命令就能把网站推到线上,省去自己搭服务器的麻烦,这在当年是非常革命性的创新。
到2025年10月,Vercel刚刚完成3亿美元融资,估值冲到93亿美元。
他们去年上线的AI编程助手v0,现在注册用户已经350万了。
这样的背景同时也意味着Rauch发出的每一条技术评测推文,都会被全球开发者当作重要的风向标。
所以当他把这组对比数据晒出来的时候,评论区很多人讨论,很多人在问use case,还有人在询问怎么接入。
有意思的是Rauch在推文里顺便提了一句:切换模型特别方便,用Vercel的AI网关工具就能轻松搞定。
这话像是在推销自家产品,但其实也是在告诉开发者:模型选择不再是技术壁垒,谁好用就用谁,切换成本已经低到可以忽略不计了。
我们把这组数据拆开看,Agent测试考验的是什么?
是模型在实际应用场景中解决复杂任务的能力。
不是简单地回答几个问题,而是要理解任务目标、规划执行步骤、调用工具、处理异常、最终交付结果。这个过程既考验模型的推理能力,也考验它的稳定性和效率。
速度快5倍意味着同样的任务,Kimi能在竞品还在思考的时候就已经交付结果了;而准确率高50%意味着更少的错误,更少的人工干预,更低的试错成本。
如果说Rauch的推文是一个信号,那么另一个更重磅的信号来自硅谷投资界的顶流人物:Chamath Palihapitiya。
这个名字对很多人来说可能陌生,但在硅谷投资人圈子里,Chamath是绝对的传奇。
他在Facebook工作期间,带领团队把用户数从4500万做到7亿。
离开Facebook后他创立的Social Capital基金,早期投中了Slack、Box、SurveyMonkey等一堆明星公司。
这位身价超过百亿美金的投资人,在《All-in》播客上公开表示,他创立的新公司已经开始将大量工作负载转向Kimi K2。
Chamath的公司本来是亚马逊AI托管平台Bedrock的TOP 20客户,用的都是最前沿的美国模型。但现在他选择转向一个中国模型,理由简单到不能再简单:K2的性能足够强,而且比OpenAI和Anthropic便宜太多了。
Chamath作为一个在产品增长和资本回报上都追求极致的投资人,他的选择从来不是情怀驱动的。
他看中的实际上是商业价值。
当他公开说要用Kimi K2的时候,不是在给中国AI做宣传,而是告诉市场:全球AI应用正在从不计成本只求最佳的狂热期,进入由商业理性主导的深水区了。
而且这个趋势正在加速, Cursor、Perplexity、Cline这些在美国开发者生态中举足轻重的平台,都已经悄然接入了Kimi K2。
聊到Kimi K2,我们就不得不提到月之暗面这家公司了。
月之暗面成立的时间不算早,但他们做了一个很聪明的决定:不跟OpenAI硬拼参数规模,而是专注在长文本处理和实际应用场景的优化上。
Kimi最早让人记住的就是能处理超长上下文,这个能力在处理复杂文档、代码审查、学术研究等场景下特别有用。
到了K2这一代,他们在保持长文本优势的基础上,把推理速度和准确率都提升了一个档次。Vercel的测试数据已经很说明问题了,但更重要的是Kimi在实际应用中展现出的稳定性。
很多开发者反馈说,Kimi在处理STEM类问题和编程任务时表现特别出色,而且输出的结果更加直接和实用。
价格优势也不能忽视,在AI应用大规模落地的阶段,成本控制是绕不开的话题。能用更低的价格获得相当甚至更好的效果,这个吸引力是致命的。
过去两年,我们见证了AI技术的狂飙突进。但现在,模型性能的天花板在逐渐抬高,但边际收益在递减,开发者也逐渐开始用更理性的眼光看待模型选择。
性能够用、成本可控、接入方便,这三点成为新的评判标准。谁能在这三个维度上做到平衡,谁就能赢得开发者的青睐。
而现在,市场传递出的信号也很明确:AI的竞争不再只是技术的竞争,更是商业模式和工程化能力的竞争。
谁能更好地解决问题,谁才能赢得未来。