即刻App年轻人的同好社区
下载
App内打开
glan.eth
2年前
# ChatGPT精进之路

OpenAI堪比热点制造机,持续吸引着世界的目光,发布迭代速度只能说他们家底深不可测。据说GPT4是半年前就准备好了,现在怎么也到4.5了吧。这个老6把自己卷这样,我反正追不上,就算追上了也是被迅速抹平,还不如索性躺平思考下人生。

这几天在考古GPT的技术原理和模型谱系,结果越看越看不懂了。网上相关的文章和资料实在太多,不过大多都是跨界客串过来蹭个热点b两句的,值得看的不多,有些人还加戏演绎,反而容易带跑偏。不过好处是,随着理解力的加深,找到的资料的质量慢慢高了,支零破碎的知识点也串起来了。给GPT和LLMs模型发展之路感兴趣的同学推荐个学习攻略,未来可能就蕴含在里面哦。

首先我挑学习的对象两个条件:1)专业从事人工智能的;2)持续观察并输出的。目前满足条件的就两位:张俊林(主要在知乎输出),李沐(主要在b站输出),欢迎推荐其它哈~

我之前看了李沐大佬的带看论文系列,虽然坚持都看了,但听得很晕,其实李沐这个系列不是为小白准备的,因为首先要有足够的知识储备,否则很多概念听不懂,数学公式看不懂,其次是这个系列讲论文,追求论文的严谨和完备,无论难不难都要按照板块和框架看完一轮。我的感觉是这个系列比较适合进阶时学习。

讲这个系列的科普向文章非常多,有的是学习完费曼出来的,我觉得做个桥梁书可以,但不可依赖,还是要往长期、原汁原味和成体系的挖。我搜了一堆资料,包括跟GPT对话学习,慢慢对神经网络,自然语言,深度学习,NLP,BERT,AGI,Attention,transformer,LLMs,GPT等一堆概念建立了一点理解,但算不上太多。然后系统看了张俊林在知乎上发的几篇文章,有点打通任督二脉的感觉。

NLP领域基本就是谷歌和OpenAI两大阵营的模型之争。李沐大佬的github上有他录课的框架,对人工智能几个领域和标志性模型有归类。他在自然语言处理这个板块把Transformer放在第一个,在视频里简要说明Transformer如何打败RNN和CNN一统江湖的。这段在张俊林的文章里有详细描述,具体而言统的是“自然语言特征抽取器”的江湖。所以,我个人认为可以把Transformer作为学习的起点,当实在深入到技术细节了,再去往前查看也不迟。

然后就是OpenAI推出了GPT,谷歌稍后推出了Bert,Bert一时风头无二,所有人都觉得这玩意紫腚能行!这点可以从张俊林2019年发的文章里看出当时大家对行业的一些判断。OpenAI没有在那个时候选择转向,而是继续推出了GPT-2。其实这时候,谷歌和OpenAI的路线分水岭已经出现了,关于这点的原因,李沐阐述如下:
“OpenAI是想做强人工智能,往解决更大的问题,而Transformer和Bert都是来自于谷歌独立的研究小组,都是要实际去解决一些问题,Transformer想解决机器翻译准确性的问题,而Bert想要把计算机视觉成熟的预训练模型-微调出子任务结果搬到NLP领域,他们都是想实在去解决某个技术问题。所以在比如1个亿的模型级别大小,Bert的效果比GPT好很多。能在更小的成本上跑结果,这也是Bert更受欢迎”

关于这个路线之争和结果,以及为什么是OpenAI,可以去看张俊林的《通向AGI之路:大型语言模型(LLM)技术精要》

小结下学习顺序:
1、张俊林

《放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较》
zhuanlan.zhihu.com

《从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史》
zhuanlan.zhihu.com

《效果惊人的GPT 2.0模型:它告诉了我们什么》
zhuanlan.zhihu.com

《通向AGI之路:大型语言模型(LLM)技术精要》
zhuanlan.zhihu.com

2、李沐
paper板块:
github.com

b站必听学习顺序:
Transformer论文精读:
www.bilibili.com

GPT、GPT2、3三篇论文串烧:
www.bilibili.com

InstructGPT:(GPT最新论文)
www.bilibili.com

再加个餐,这篇说gpt3.5的技术渊源也很专业,
yaofu.notion.site

学无止境,NLP领域历史有点源远流长的,派系又很多。这个学习框架也就是个梗概,估计还要查阅不少资料,如果真的想了解细节的技术原理,甚至到公式级别的,估计要看得起更多。

江湖看起来要被一统了,不过硝烟还在弥漫,未来还有很多变数~
739

来自圈子

圈子图片

AI探索站

75521人已经加入