最近在构建私有模型的一些经验总结
1.在私有模型构建的过程中,分成知识型能力和推理型能力
2.知识型能力主要靠预训练和微调。
预训练一般情况都是巨头的游戏了。非巨头,一般都是在微调上下功夫。
3.推理型能力,一般有三种方式来拓展:
a.微调:在微调数据中包含推理样例,成本最低,有大量云厂商提供了微调的 API 或者页面。
b.强化学习:对于容易衡量正确与否的领域,适合用强化学习。
c.Test Time Scalling:推理阶段让模型多思考一些时间。
4.建议在模型构建初期,充分挖掘微调的潜力,构建良好的训练数据和评估方式。
5.之所以微调无法解决所有问题,还需要强化学习的原因:
一方面是成本,高质量的推理数据生产成本比较高,大多需要人来写
一方面是质量,推理数据水平上限受限于人类水平,强化学习在有明确奖励函数的情况下,可能探索出比人类水平更好的数据
6.在能低成本用代码生产训练数据,或者不需要超越人类水平上限的时候,就还不着急上强化学习,先把微调搞透
另外,deepseek 也实验过,假如基座模型能力不足,直接上强化学习,效果并不好。