即刻App年轻人的同好社区
下载
App内打开
vikingmew.eth
1年前
LLAMA2的论文看了一下。
如果说InstructGPT的论文近似于概念验证。PaLM和Claude的没公开自己思路。那么这篇论文基本上把要不要强化学习,怎么做强化学习,要注意什么困难基本上该说的都说了。
现在所有巨头一致说强化学习有用。大家赶紧翻翻自己聊天记录,找找谁都到夏天了,还在发表搞个大模型,什么SFT就行了,可以用数据量大抵消之类的言论。
算法这个工种之后的能力图谱也会有变化,不仅仅是文本类也包括图像和别的方向,不会强化学习PPO基本上也可以准备度过一个相对比较失败的职业生涯了……
20

来自圈子

圈子图片

AI探索站

77638人已经加入