之前听杨植麟的播客提到一个很有意思的观点:用强化学习(RL)和监督式微调(SFT)来类比公司或团队的管理方式。
对于创新性强、注重创意的团队,更适合采用类似 RL 的管理方式——不提供标准答案,而是设定清晰的目标。通过类似奖励机制的引导,对员工的行为和成果进行“打分”,鼓励他们追求更高的得分。员工在这个过程中逐渐明白哪些做法是好的、哪些是不利的,从而激发更多潜能与可能性。
而对于传统、流程固化、注重规范的团队,则更适合采用类似 SFT 的管理方式——每项任务都有明确的标准流程(SOP),员工必须按既定步骤执行。经过“训练”后,员工能够稳定输出符合预期的结果,不容易偏离标准。这样的团队不依赖特定个人,只要后续人员能继续遵循流程,就能维持运转、不会轻易垮掉。
当然,在具体的管理实践中,SFT 和 RL 并不是非此即彼的选择。一些固定流程、不容出错的环节,仍需采用 SFT 式的严格管理;而对于创新性强的工作,则更适合 RL 式的引导。关键在于,管理者要在两者之间找到适合自身团队情况的平衡点。