今天在小组内部分享了ChatGPT的原理。
从GPT-1到GPT-3,整体思想变化不大。先是通过大模型、大语料无监督训练语言模型,然后针对具体任务做fine-tune或者prompt学习。但这种方式一直都有一个问题,预训练的目标和用户的意图不匹配。为了解决这个问题,在InstructGPT里引入了RLHF,用户想要什么就让用户去标就行了。特别地,在Chat GPT的官网上Method里面提高了 human AI trainer(让我想起来 神奇宝贝的训练师)。所以为什么相比于当初的BERT,GPT出圈了?基于生成式GPT更适合与用户交互,并且基于prompt的输入形式几乎用问答的形式统一了所有NLP任务。看来一味的刷benchmark的SOTA可能结果会很漂亮,但是贴近用户才能做出真的有用的东西啊!
下面这个图就是ChatGPT的精华所在了