即刻App年轻人的同好社区
下载
App内打开
阿法兔
3年前
之前的InstructGPT模型,是给一个输入就给一个输出,再跟训练数据对比,对了有奖励不对有惩罚;现在的Chatgpt是一个输入,模型给出多个输出,然后人给这个输出结果排序,让模型去给这些结果从“更像人话”到“狗屁不通”排序,让模型学习人类排序的方式…感谢转发❤️❤️❤️比一万个心

从GPT-1到GPT-4看ChatGPT的崛起

点击阅读原文
1214

来自圈子

圈子图片

AI探索站

101234人已经加入