读了 DeepSeek 那篇训练方法论的 paper。
它说,传统训练里你请一堆专家给学生上课,效果其实很有限。原因是专家在他自己的虚构案例上演示,学生学到的是"在专家那条路径上他怎么做",但学生自己的真实路径根本不长那样。新的做法是反过来:让学生先自己跑一遍,跑到哪里卡住,在那个具体节点上让专家点评"如果是我会怎么判断"。前者叫 off-policy,后者叫 on-policy。
每年花几百万请人做 workshop,当天大家觉得很受启发,三个月后实际工作里几乎没人在用。复盘时——"那东西很好",没了。培训是个福利,但是也就仅此而已。
之前一直觉的这是"知识转化率"的问题,可能是最后老师要大家记得三点没记清楚,或者工具不完美。
看完 DeepSeek 这部分,意识到其实是个方法问题。专家在他的路径上的分布,迁移不到学习者自己的真实路径上。再受启发也是别人的启发。
正确做法可能应该反过来。
让员工带着自己手头真在做的事去找专家,自己先跑一遍,在卡住的那个具体决策点,让专家说"我会怎么判断"。用自家公司的案例去提问,承接,找到解法。
学的不是专家的整套方法论,是专家在你这个具体场景下的判断分布。
感觉大公司的培训预算花反了方向。