终于搞明白 temperture 和 top p 这两个参数是什么,为什么有这两个参数以及他们对模型输出的影响。当前主流的大模型在选择接下来输出哪一个词的时候是采用的概率采样策略,而不是贪心策略(始终选择概率最大的那一个,该策略缺点是缺乏主观能动性,每次都是一样的),temperture 调节的是概率分布的形状(作为 softmax 函数的一个参数),top p 其实就是累计概率,top p = 0.8 ,意思就是如果词向量的概率累计超过 0.8 就截断了,从而避免长尾拉低输出质量。当然通过概率采样策略也能够实现贪心策略,把 temperture 调节成 0 或者把 top p 调节成 0 都可(实际不会为 0 ,只是无限接近于 0 )。 总结一下完整流程,大模型算出原始 Logits → Temperature 调整 → 完整的概率分布 → Top-P 筛选 → 最终候选圈 → 随机采样。