第一期自己的播客开张啦~☀️
上周是热闹的一周:李彦宏、周鸿祎、傅盛等大佬隔空叫板,主题是围绕「大模型的开源闭源之争」,与此同时,Llama3重磅发布了,标志着开源的能力已经达到了新的高度。
在此背景下,为了厘清大模型开源的一系列问题,更生动、直观地理解这些(对于普通人来说)略显艰深的技术,我访谈了全球最大的开源 AI 社区 Huggingface 的中国区负责人王铁震
@AI小舟哥 ,试图还原:开源在全球创新、以及在中国的发展历史。还包括:
如何理解 Llama 3发布的意义?
大模型的开源究竟怎么「开」法?
开发者训练模型、改模型的过程是什么样的?
在当下火热的 AI 浪潮中,开源、闭源的选择对大模型创业者来说,究竟意味着什么?
想了解更全面的笔记欢迎移步公众号「卫诗婕 商业漫谈」。这是我全职独立写作后的第一篇「作业」,之后也会持续更新,相信用心的内容还是有价值的。
以下做一些主议题和观点摘录:
1.「开源」的过程很类似于字幕组的工作流程。
2.过去一年,大模型的推理成本实际上下降了 100 倍。这其中很多工作都是开源社群推动的。
3.大模型时代,第一次出现了开源和闭源「齐头并进」。
4.开源、闭源是可以互相转化的,其中的光谱非常宽。
5.在开源模型上训练一个新模型的过程: 1. import Transformers(将模型载入tranformers架构)——2. 喂数据、模型输出完成推理——3. 微调(SFT)——4. 继续预训练( Continuous Pre-training)
6.Llama 3 的三个不同参数版本,其中 8B 是对开发者更友好的,400B值得期待,但能用的人没那么多。