新产品预告:评测 is all you need,把评测能力交给更多用户
这是我在,当 Agent 逐渐渗透到更多组织时,以 Agent 为中心的协作工具和组织是什么样的,这一问题上的想法
在 Opus4.7 等长程模型使用过程中,发现效率的卡点逐渐变成对产物的标准不清晰
在负责通用 agent 产品的实践中,发现上下文学习和模型训练,都是各有有价值的“进化方式”
在 Agent Native 组织的思考和探索中,发现决策和执行之间的信息摩擦,是最值得被优化的问题
对于解法,我现在的观点是:多 Agent 下的 Auto eval & 人类协作 Review
于是,趁着前阵子空闲,与 Claude 和 GPT 老师一起,构建了这么一个产品
一个人开发还是慢,先放三个预告视频吧
PS:本视频由 Claude 老师基于产品再次加工构建,我配了个乐
产品功能构建流程(前面还有两个视频)