最近智谱做了个有趣的研究,量化地观测模型的能力涌现的现象和相关因素。
针对MMLU 和 C-Eval 两个评测,选用三种不同的指标做实验,分别为 Accuracy、CorrectChoiceProb、BrierScore。其中:
Accuracy 是原始的指标,为非连续的指标;
CorrectChoiceProb 为预测正确答案的概率,是连续性的指标;
BrierScore 是《Are Emergent Abilities of Large Language Models a Mirage?》中使用的连续性指标,是一个根据正确答案和非正确答案概率计算出来的量。
实验结果如图:
可以看到,不管是非连续指标,还是连续指标,当 pre-training loss 达到某个转折点时,语言模型的涌现能力就会出现。
连续指标无法消除观察到的转折点。
整个论文有几个非常好的结论:
1. 大模型和较小的模型确实具有涌现能力。
2. 是否涌现不能简单归因于模型大小,而是和预训练的loss密切相关。
3. 模型的能力从随机猜测水平到性能的上升,有一个明显的转折点,和指标是否连续无关。
论文地址:
arxiv.org