1 预测一个 ai 产品方向: vibe benchmark building ----- benchmark customization(定制测试集)
2 今天的多数通用benchmark,mmlu,tau, arc, 等等的模型分数都并不能帮助一个公司判断一个模型在自己公司所需要的任务上的表现
3 比如我要做一个agent 客服,gpt5 的数学能力再好也无法证明gpt5的客服能力,比如我要做一个心理咨询 agent,claude的tool use 能力再好 也不能说明claude能做好心理咨询。
4 所以,如果一个公司想开发自己agent产品,或者在某个重要的垂直领域使用 agent 执行,这个公司必须有自己的benchmark, 否则这个公司就无法搭建真正全自动且高质量的 agent;因为,没有测量,就没有迭代和提升的方向,任何开发和优化都会是无头苍蝇。
5 今天已经有 surge ,帮助非常技术的模型公司,或者 ai 创业公司搭建非常专业的benchmark;未来会有一个 x, x 之于 surge 如同 lovable 之于cursor;x 是一个给所有非技术人员可用的 benchmark builder,帮助所有人快速的把自己的需求,审美转化为一个可以运行可以量化的测试集。
6 在未来,如果我想做一个情感陪伴的chatbot,我的第一步可能就是用 x 去 vibe build 一个 minimum viable benchmark, 一旦有了benchmark 让 agent 去在benchmark获得高分可能只是机械的优化工作,是可以自动化的。
7 benchmark会不只是一个优化的目标,而是一种最自然的表达产品设计需求的方式,是人和 agent 最好的互动媒介。
8 建造 benchmark,迭代benchmark,会是未来最重要的岗位之一。总有人问 llm 会创造什么岗位:围绕着benchmarking,就会有很多岗位。