作为一个小白,我觉得这个演讲最有启发的观点是RLHF as a learned objective/loss function。
为什么训练LLM时,instruction finetuning/SFT是不够用的,一定需要RLHF。这是因为一个确定的SFT training sample,是给定了一个“精确答案”的,loss function也是“固定”的(即next token max likelihood和sample给出的越接近越好)。但对于更加开放的问题,是没有一个精确的、唯一的、最好的答案的,比如“给我的6岁女儿生成一个她能听懂的解释巴以冲突的简要概述”。这种情况下,给定两个generated answers,用人类的preference去给出相对的好坏,则是可以做到的,所以需要RL来训练一个reward model,也就是所谓的learned loss function。
从ML/AI领域整体的发展趋势来看,越来越少的人工/手工干预(更少的bias),越来越多的learned parameters是未来。Deep learnin对于传统机器学习的改进,就是hand designed features -> 模型自动提取有效feature (learned features)。演讲者(@hwchung27)觉得,deep learning再进一步发展,是要从hand-designed loss function -> learned loss function,还是挺有道理的。