有预感OpenAI /Anthropic/Gemini 以后不会再直接提供最强大模型的 API 了,取而代之的提供Agent runtime服务,Runtime as a Service。
大部分高价值场景本质上都是agent服务了,需要一个半永久 runtime,用户随时切回某个 session 继续任务。状态/cache/记忆留在模型方,他们在 cache 经济性上有结构性优势,而且按任务难度计费,远比 input/output token 计费更贴合价值。
还有反蒸馏:权重和中间态关进 runtime,只暴露任务结果,蒸馏门槛被抬高。
Anthropic 的 Managed Agents 已经按 $0.08/session-hour 计费了。