RL训练的一种类比
当你打开任何教科书时,你会看到三种主要类型的信息:
1. 背景信息/阐述。这是教科书的主体内容,用于解释概念。当你专注于这些内容时,你的大脑正在通过这些数据进行训练。这相当于预训练阶段,模型通过阅读互联网来积累背景知识。
2. 带解答的习题。这些是专家如何解决问题的具体示例,是用来模仿的示范。这相当于监督式微调,模型在人类撰写的"理想回答"基础上进行助手角色的微调。
3. 练习题。这些是给学生的提示,通常不提供解题过程,但总是会给出最终答案。每章末尾通常都会有大量这样的练习题。这些题目促使学生通过试错来学习 - 他们必须尝试多种方法才能得到正确答案。这相当于强化学习。
我们已经让 LLM 接受了大量的 1 和 2 类训练,但第 3 类仍是一个新兴的前沿领域。当我们为 LLM 创建数据集时,这与为它们编写教科书没有什么不同,都包含这三类数据。它们必须要阅读,也必须要练习。