即刻App年轻人的同好社区
下载
App内打开
Mayer_
191关注4被关注0夸夸
感知/判断
ENTP
Mayer_
2年前

Danielw: 昨天关于GPT-4的训练细节被刷屏了,刚刚拾象也发布了对文章详细的解读,不过我更关心新闻是怎么传播的、背后的文章作者背景各个媒体是怎么编译新闻的、以及被大家刻意忽略的部分有哪些。 拾象的文章链接:https://mp.weixin.qq.com/s/zmhSDQMhO7NCWClCX1ntdA 原文地址:https://www.semianalysis.com/p/gpt-4-architecture-infrastructure 一、这个新闻是怎么传出来的 事情起初是北京时间7.11早上,推特上一位叫Yam Peleg的人通过购买文章的订阅再退款的服务将GPT-4的训练细节的文章摘要总结出来,后被作者Dylan Patel指出后删除了长Thread。此后文章的文章链接PDF版本开始流传,在当日中午已有公众号进行了编译发布。 二、文章作者和其公司什么背景 作者Dylan Patel和Gerald Wong都属于SemiAnalysis公司的分析师,公司目前一共有4人,另外两位分别是AFZAL AHMAD(这位曾经和Dylan Patel写出了谷歌和OpenAI都没有护城河的爆款文章,在新加坡国立大学毕业后一直在SemiAnalysis)和GEORGE COZMA。 谷歌文章链接: https://www.semianalysis.com/p/google-we-have-no-moat-and-neither 创始人兼首席分析师Dylan Patel是一位印度裔的半导体行业分析师。据传曾在英特尔任职但本人将其职业生涯的前七年刻意模糊了(12-19)因此不能确定,19年五月作者创立了SemiAnalysis作为半导体研究和咨询公司。对会员发布完整深度研报(500刀一年)和咨询服务(500刀一小时)。这个价格很贵也很便宜,作为对比,财新通加数据通一年大概一千多,按照中美日常物资购买力1:3计算,此订阅的价格和财新套餐差不多价格;但按照电话会“素人专家”2000起步的费用来说,其500刀一小时的咨询费又显得不是很贵。 SemiAnalysis的订阅数十分恐怖,最低500刀一年的订阅费也有几万名订阅者,加上咨询费用即使算上抽成和不算其他费用,一年的公司人均税前收入也有几十万美元。(作为对比,国内的财新订阅人数也只有70万,全世界媒体前10的订阅也就30万;并且财新通+数据通的组合人数只会更少。) 三、这篇文章主要内容是什么 这篇文章的具体内容肯定不会细讲,毕竟拾象都有18000字了。不过按照文章结构大致可以分为几个部分:设计架构、物料准备、特性解读、约束分析。 设计架构包括:模型结构、MoE(Mixture of Expert,混合专家系统) 物料准备包括:数据集、推理的 Infra 与成本 特性解读包括:视觉多模态、推测解码、多查询注意力机制、连续批处理、推理 约束分析包括:训练成本、推理的 Infra 与成本、并行策略 设计架构主要分析OpenAI的GPT4这样强大的模型是怎么设计出来的,前一阵George Hotz也猜测其架构为MoE,不过更进一步的细节不如本篇内容可信。有关George Hotz言论的源头可参见笔者的分析: 至于数据集和推理的 Infra 与成本其实之前的MPT7B的文章可以参考,同样给出了数据集、训练细节并且其还是开源可商用的。举例来说,OpenAI在文章中被爆料使用CommonCrawl数据集,而MosaicML d1训练语料一半以上来自C4(29.9%)和mC4(33%)还有RedPajama(10%)和The Stack这样的代码数据集(10%)。 而关于特性解读和约束分析SemiAnalysis其实已经有非常详细的文章解读,笔者这里就放一个链接,大家可以根据文章自行寻找国内的完整编译版: https://www.semianalysis.com/p/the-inference-cost-of-search-disruption 四、内容的源头与生产 其实前三部分已经是一个完整的部分,不过笔者想到了一个有趣的角度来根据此次文章逆向分析一下各个公众号的制作流程完善程度和内容储备程度。 这次的事件国内最快的一批编译大概是11号当天的中午发出,主要方式为Yam Peleg的长推截图分类结合文章本身的示图分析,不过有意思的是,这篇文章由于受众为从业者因此风格极其硬核存在大量专业名词如KV cache、MoE、Block-level FSDP等。于是我想到了一个角度考察每个公众号是否在每一篇新闻后有积累动作,于是我就对上述的每一个专业名词进行历史搜索发现存在多篇涉及名词的相关报道但是对这篇GPT4的文章无一篇有名词解释,也就是说内部并没有一个所谓的AI、芯片专业名词知识库在相关文章需要对名词进行说明时进行复制并调取。而拾象则专业很多,将文章结构重新整理后还将可能涉及到阅读困难的专业名词配合ChatGPT或newbing等工具进行了翻译和解释。(你问我怎么看出来的,当然是我也搜索过发现输出结果一模一样啊哈哈,当然最明显的还是Batch size这个解释,最后的总而言之太GPT了。)

00
Mayer_
3年前
00