模型日趋成熟,AI的下一程:比拼工程配套与真实体验
每天刷AI资讯,这几天的感受是:模型仍在持续迭代,能力也在稳步提升。文本理解、自主任务处理、多场景交互等方向,新模型与新基准不断出现,例如:
• 《Claude Mythos官宣!性能碾压Opus 4.6,因太危险遭「囚禁」》(量子位)
• 《刚刚,Anthropic祭出最强Claude Mythos!暴击Opus 4.6,跪求千万别用》(新智元)
Claude Mythos这类模型,能力已经强到需要通过限制发布来规避安全风险,这恰恰印证了一个越发清晰的趋势:对多数场景而言,模型基础能力已经可以满足需求。真正影响落地与体验的,往往是模型之外的部分——Harness工程骨架、部署方式、知识库、数据自主权以及更贴合日常的交互方式。
行业讨论也在印证这一转向,多篇文章都聚焦于此:
• 《我把Karpathy的知识库方法论落地了,效果超出预期》(云小虾)
• 《深度|对话LangChain创始人:为什么Manus和Claude Code这么强?秘诀不在模型,而在顶级Harness》(Z Finance)
• 《同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖》(深思SenseAI)
这些内容共同指向一个核心:AI能否真正用好,越来越依赖模型以外的工程体系与配套设施。
我最近在使用AI编程工具时,对此感受尤其明显。单看模型,AI编码能力已经比较完善:理解项目结构、执行命令、排查问题、长时间完成工程任务都比较从容。但落到实际使用,体验上的短板很突出。
我有一个很朴素的需求,技术上并不复杂:
• 代码存放在我自己的云服务器;
• AI在我的服务器上操作文件;
• 手机上有官方APP,随时查看进度、下发指令、简单干预。
简单说:代码自己掌控,手机随手可控。
但主流工具大多不能顺畅满足。要么强制把代码托管在平台云端,要么只支持桌面端,远程操作体验割裂。像Windsurf这类主打AI工程的工具,甚至没有官方手机APP,更无法实现手机直连自有服务器。
不少工具推出的“云端代理”,也只是把任务跑在平台自己的服务器上,而非我自己的服务器;有的支持代码托管,也只绑定GitHub这类固定平台,没有给用户选择权。
其实 OpenClaw 已经能实现“代码在自有服务器+手机远程操作”的模式,只是它在AI编码上不够专业。我更希望的是:把 Cursor、Codex 这类成熟的AI编程能力,直接部署在我的云服务器上。
这并非个例,而是很多AI应用的共性问题:
模型在持续升级,配套却常常被忽略。
数据是否可以留在自有环境,不是优先考虑;
自定义部署到个人服务器,大多只面向企业版本;
手机端等跨设备操控,体验普遍粗糙;
稳定的执行框架与可预期行为,优先级往往低于 benchmark 表现。
行业越来越多地讨论Harness,也说明大家开始达成共识:
同一模型在不同工程框架下,落地效果差异明显。
AI能否顺畅融入工作流、让人放心使用,更多取决于工程配套。
模型决定能不能完成任务,工程配套决定用得顺不顺、安不安心。
未来AI的竞争,会慢慢从模型能力,转向工程化落地、使用体验与自主可控性。
模型已经走向成熟,现在该好好打磨配套的工程与体验了。