即刻App年轻人的同好社区
下载
App内打开
周弋涵
338关注402被关注5夸夸
planckerDAO
三士渡教育
ai alignment,sts,longevity,philosophy
周弋涵
21天前
1 预测一个 ai 产品方向: vibe benchmark building ----- benchmark customization(定制测试集)

2 今天的多数通用benchmark,mmlu,tau, arc, 等等的模型分数都并不能帮助一个公司判断一个模型在自己公司所需要的任务上的表现

3 比如我要做一个agent 客服,gpt5 的数学能力再好也无法证明gpt5的客服能力,比如我要做一个心理咨询 agent,claude的tool use 能力再好 也不能说明claude能做好心理咨询。

4 所以,如果一个公司想开发自己agent产品,或者在某个重要的垂直领域使用 agent 执行,这个公司必须有自己的benchmark, 否则这个公司就无法搭建真正全自动且高质量的 agent;因为,没有测量,就没有迭代和提升的方向,任何开发和优化都会是无头苍蝇。

5 今天已经有 surge ,帮助非常技术的模型公司,或者 ai 创业公司搭建非常专业的benchmark;未来会有一个 x, x 之于 surge 如同 lovable 之于cursor;x 是一个给所有非技术人员可用的 benchmark builder,帮助所有人快速的把自己的需求,审美转化为一个可以运行可以量化的测试集。

6 在未来,如果我想做一个情感陪伴的chatbot,我的第一步可能就是用 x vibe build 一个 minimum viable benchmark, 一旦有了benchmark agent 去在benchmark获得高分可能只是机械的优化工作,是可以自动化的。

7 benchmark会不只是一个优化的目标,而是一种最自然的表达产品设计需求的方式,是人和 agent 最好的互动媒介。

8 建造 benchmark,迭代benchmark,会是未来最重要的岗位之一。总有人问 llm 会创造什么岗位:围绕着benchmarking,就会有很多岗位。
00
周弋涵
4月前
用人不疑 疑人不用

用ai要怀疑 怀疑ai也要用
00
周弋涵
1年前
可能有一种感情状态叫 双人成行第一关打了n遍 从来没见过第五关
00
周弋涵
1年前
不知道网吧贡献了多少销量
20
周弋涵
1年前
如果没有 星巴克 kfc 这些店 中国人会在哪里自习 谈事儿 ?
40
周弋涵
1年前
- 0 合成数据为什么能让模型学习到新的东西?
- 0.1 麦克斯韦妖是一只把信息转化为能量的妖精:他把速度慢的粒子挡在门外,速度快的粒子放进门内,在门两侧造出温差,用以做功。
- 0.2 面对合成数据,人类标注者挑出满足特定要求的数据放入训练集,剔除不满的数据,在参数空间中造出某种「loss差」,用以梯度下降。

- 1 Agent 工程的很多相关概念也可以作为理解人的metaphor。
- 1.1 比如我是一个不擅长rag,但擅长在confined context中进行summarization reasoning的agent。
- 1.2 如果一个对话需要引用到大量的外部知识,或者需要refer to很久之前的聊天记录,我可能会无法生成高质量回答,甚至会hallucinate。但如果对方可以提供充分的信息,我非常擅于从大量具体信息中找到重点,发现问题,或做出复杂推理。
- 1.3 所以我其实不擅长演讲(因为需要从自己的知识储备中 rag),但擅长在互动中,对好的prompt进行回复。
- 1.4 对我来说一个好的Assistant 大概是优先弥补我的rag短板。

- 2 AI时代会出现更多的一人公司,但这些一人公司取代的应当是现在的小微企业,而非大公司。
- 2.1 组织的边界存在于这样一个位置,边界内的信息流通成本大大低于跨边界的信息流通成本。
- 2.2 一个大的组织的边界内部可以有:私有的高质量数据,彼此的信任,利益和价值的一致性,更垂的大模型,有更多维护开发资源的agent。

- 3 人类在100万年前发现了火,但直到第一次工业革命才找到了火的杠杆最高的使用方式:使用火产生scalable,steerable的能量。LLM也许是一个使用「信息」产生scalable,steerable能量的方式,一个通用场景的麦克斯韦妖。
00
周弋涵
2年前
凡是能说的 都能够说清楚
​凡是不能说的 都应该交给神经网络
00
周弋涵
2年前
话说大家会有招聘 prompt engineer的需求吗? 大家怎么评估一个人prompt engineering的水平?
00
周弋涵
2年前
创业似乎会让人的人变得更像普通人
00
周弋涵
2年前
既要又要还要
00