滑板上的AI少年的个人主页

即刻App年轻人的同好社区

下载

App内打开

滑板上的AI少年

143关注2k被关注2夸夸

在人工智能的领域里和机器一起学习，闲暇时用镜头记录生活
Databricks Mosaic AI训练师
ivanzhou.me 👨🏻‍💻🐱🛹📝📸

置顶

滑板上的AI少年

1年前

OpenAI DevDay聊AI产品：用户们希望ChatGPT的猫咪属性有多高？
我：拉到满，谢谢喵 🐱

30 10

滑板上的AI少年

11月前

我参与的开源大模型训练框架在Google Cloud Next大会上被展示在首位 🥳
Levanter 可以在TPU/GPU上训练大模型，易迁移、训练效率高，支持大规模的预训练和模型微调。
同在榜单上的Equinox也是非常好的library，轻量、易用、拓展性好。

32 30

滑板上的AI少年

11月前

Google 布局 TPU 开始于10年前，虽然当时的目的不是为了研发大模型，但依然可以说得上是目光长远，过程中的迭代和执行也做得到位。我有幸在18年接触过初代TPU，后来主要使用V3，最近开始用V5e，亲历了几代的发展进步。如今看到冰冻三尺，绝非一日之寒。
这不是一件轻易可以做到的事情。以Meta为例，几年前内部开始自研AI芯片，却也依然从Nvidia买了几十万张H100（不过Mark下单得早，时机上也显得很有远见）。短期来看，做基础大模型的公司的priority list里，降低算力成本应该不是排在首位的；即使是要降低算力成本，自研也绝非首选，还是有很多其他方式来达到目的，这一点上Mosaic ML和Anthropic都很有参考价值。
长期来看，一家公司垄断算力资源的怪象一定会被打破，算力的供给上会有更多的选择，infra上对于切换算力栈的支持也做会更好。也就是说，算力真正变得commoditized。而到那个时候，算力本身依然不会是大模型公司的首要问题，专有数据、应用场景、用户认知等等这些才会是护城河。

boyu_tian: 基座大模型的成功路径，究竟是买算力训模型，还是类似于Google布局TPU的方案，自研算力栈训模型呢？或许是一个简单的A+B-C的数学题 A：算力栈研发成本 B：公司切换算力栈的成本 C：在整个未来，比从英伟达买卡省的成本大模型的特点使得所有不曾涉足infrastructure的公司开始有必要算这道题，而各家估算出的A,B,C，谁估算的更准，将成为可能的胜负手之一（当然，除了基座大模型公司本身，也会有纯infra公司来挑战英伟达，最近我正在胡思乱想他们能否成功）

10 20

滑板上的AI少年

1年前

湾区的天气越来越暖和，一改之前连续几周湿漉漉的天气，适合周末出门踏青，将自己舒展开来

11 20

滑板上的AI少年

2年前

五个月前，当第一个 LLaMA 模型推出的时候，它刷新了人们的对于模型体积的预期：一个近似 GPT 能力的模型可以放到本地跑，65B 的模型也可以表现得很好。虽然 LLaMA 的开源限于学界，但是论文里详细介绍了制作方法，因此很多团队争相地复现数据和模型，开源界由此变得热闹，每周都有新的模型推出。

今天 LLaMA 2推出，显然开发团队从之前的成功中汲取了经验，强化了自己做对了的事，补上了没做的部分：预训练的数据加倍、上下文长度翻倍、按照RLHF微调出了chat版本、允许商业使用、在第一天就上了HuggingFace排行榜、推出了微调和部署的官方指南……不得不说这个团队开源做得的确是到位和专业。

不难想象 LLaMA 2 凭着自己的表现和 license 很有可能会成为未来一段时间学术界和工业界 LLM 项目的基石。想要从头开始预训练类似模型的团队会逐渐变少，依然坚持做的团队需要找到更独特的切入点/领域；相对应的，会有更多更多的团队会从 LLaMA 2开始计划和实施自己的项目，围绕 LLaMA 2 做微调、做部署、做服务的生态会越发繁荣。

37 43

滑板上的AI少年

2年前

灯塔亮起的一刻，Builder 的无限快乐 🏰

00:07

26 00

滑板上的AI少年

2年前

最近同时在使用 A100 和 TPU 做大规模训练，尝试了各自生态里的工具对于训练做了优化。TPU 的确是实打实非常好的训练硬件资源，速度快、吞吐量大、配套的分析和优化工具也到位。只可惜一直以来完全被 Google Cloud 和 TensorFlow 所绑定，跟外界的生态联系很少，和 PyTorch 以及 HuggingFace 基本绝缘，工具的易用性和文档也做得不够好。

如今 GPU 显卡短缺，推动了外界考虑使用 TPU 的动力，希望可以促使 TPU 能够更好地融入外界的机器学习生态。

20 00

滑板上的AI少年

2年前

最近因为一个契机，我从头开始参与基础大模型的训练开发。亲身经历去实践这个过程令我兴奋，也让我学到很多。有一些心得体会可以分享：

1. 人们常说GPT模型学习了整个互联网的数据，听上去只要能够把整个互联网爬下来就可以了，这个说法并不准确。训练的原始数据的确是来自互联网（CommonCrawl和私域的内容），但是实际拿来训练用的只是其中的子集——一个精心挑选的高质量子集。Sam Altman和Lex Fridman的访谈中说过，他们在数据上的大部分努力是去筛选信息，而不是堆积信息。原始数据需要经过大量的筛选、去重、格式化的处理，这个过程耗时耗力，也往往被忽视，但却是至关重要的。

2. 随着模型的参数上到百亿甚至千亿，很多新的能力开始涌现，而很多工程上的麻烦也随之而来。为了应对如此庞大的数据和模型体量，系统里几乎每个角落都需要优化，从数据处理、切分、训练时的样本和机器分布、梯度下降的稳定性、存储等等，各个方面都需要对应做提升，避免成为短板。一个成功的大模型背后离不开几十上百个细节的工程优化。

3. 一个还不成熟、有待考验的心得：现在想要做一个LLM，你并不需要一支庞大的团队。你只需要不到10个有经验、有行动力、能够高效合作的工程师就可以了。Meta、OpenAI、HuggingFace等团队都为这个生态提供了非常实用的轮子，只要使用得当，就可以获得明显的助力。当然，人数上可以精简，GPU计算资源还是得管够。

223 2361

滑板上的AI少年

2年前

雨过天晴，阳光明媚，各有其美。

47 10

滑板上的AI少年

2年前

看GPT-4现场demo的感想：
1. 相比于官方宣传里强调的GPT-4在SAT、GRE考试上取得的成绩，它在多模态中展现出的能力更加让人感到惊艳。Demo中，Greg尝试了几张截图和照片，GPT-4都能够详细地讲述内容和细节，甚至可以根据一张手绘的草图写出对应的网页HTML代码。等视觉方面的能力开放出来之后我想要好好试试。
2. 在demo中，GPT-4基于开发者文档的内容提出有效的解决方案和代码，基于法律条文解答税务问题，并用通俗易懂的语言一步一步地解释，这种使用方式非常有趣。现实社会中的很多文章并不是为普通人写的：从法律条文到专业文献再到开发者文档，写作所追求的往往是准确度、覆盖面、专业度，但偏偏并不是普通人易读性。因此，我们需要雇佣专业工作者，例如律师、咨询顾问，来作为中间的桥梁，从一个实际问题中找到对应的文献，获得准确的解答。Demo中展示出来的效果是，GPT-4可以做类似的事情，基于专业文献找到答案，用通俗易懂的语言解答个人的疑问，达到为普罗大众赋能的作用。
3. 和上面第二点相关，像是专业的工具文档，之前是针对开发者写作，那未来是否会变为针对LLM写作，从格式到内容到呈现方式，都为了能够更好地被模型输入而优化？
4. OpenAI的现场demo感觉非常好，苹果为硬件产品发布会树立了标杆，OpenAI为AI软件发布会也树立了一个好的榜样。
5. 一遍一遍提醒自己做预期管理：不要根据demo去推断GPT-4的能力，还是得到手之后试试。Interpolation不可取……

149 1434