即刻App年轻人的同好社区
下载
App内打开
滑板上的AI少年
143关注2k被关注2夸夸
在人工智能的领域里和机器一起学习,闲暇时用镜头记录生活
斯坦福CS,热爱计算机视觉,更热爱这个世界🌟
ivanzhou.me 👨🏻‍💻🐱🛹📝📸
置顶
滑板上的AI少年
1年前
OpenAI DevDay聊AI产品:用户们希望ChatGPT的猫咪属性有多高?
我:拉到满,谢谢喵 🐱
10
滑板上的AI少年
7月前
我参与的开源大模型训练框架在Google Cloud Next大会上被展示在首位 🥳
Levanter 可以在TPU/GPU上训练大模型,易迁移、训练效率高,支持大规模的预训练和模型微调。
同在榜单上的Equinox也是非常好的library,轻量、易用、拓展性好。
30
滑板上的AI少年
8月前
Google 布局 TPU 开始于10年前,虽然当时的目的不是为了研发大模型,但依然可以说得上是目光长远,过程中的迭代和执行也做得到位。我有幸在18年接触过初代TPU,后来主要使用V3,最近开始用V5e,亲历了几代的发展进步。如今看到冰冻三尺,绝非一日之寒。
这不是一件轻易可以做到的事情。以Meta为例,几年前内部开始自研AI芯片,却也依然从Nvidia买了几十万张H100(不过Mark下单得早,时机上也显得很有远见)。短期来看,做基础大模型的公司的priority list里,降低算力成本应该不是排在首位的;即使是要降低算力成本,自研也绝非首选,还是有很多其他方式来达到目的,这一点上Mosaic ML和Anthropic都很有参考价值。
长期来看,一家公司垄断算力资源的怪象一定会被打破,算力的供给上会有更多的选择,infra上对于切换算力栈的支持也做会更好。也就是说,算力真正变得commoditized。而到那个时候,算力本身依然不会是大模型公司的首要问题,专有数据、应用场景、用户认知等等这些才会是护城河。

boyu_tian: 基座大模型的成功路径,究竟是买算力训模型,还是类似于Google布局TPU的方案,自研算力栈训模型呢?或许是一个简单的A+B-C的数学题 A:算力栈研发成本 B:公司切换算力栈的成本 C:在整个未来,比从英伟达买卡省的成本 大模型的特点使得所有不曾涉足infrastructure的公司开始有必要算这道题,而各家估算出的A,B,C,谁估算的更准,将成为可能的胜负手之一 (当然,除了基座大模型公司本身,也会有纯infra公司来挑战英伟达,最近我正在胡思乱想他们能否成功)

20
滑板上的AI少年
9月前
湾区的天气越来越暖和,一改之前连续几周湿漉漉的天气,适合周末出门踏青,将自己舒展开来
20
滑板上的AI少年
1年前
五个月前,当第一个 LLaMA 模型推出的时候,它刷新了人们的对于模型体积的预期:一个近似 GPT 能力的模型可以放到本地跑,65B 的模型也可以表现得很好。虽然 LLaMA 的开源限于学界,但是论文里详细介绍了制作方法,因此很多团队争相地复现数据和模型,开源界由此变得热闹,每周都有新的模型推出。

今天 LLaMA 2推出,显然开发团队从之前的成功中汲取了经验,强化了自己做对了的事,补上了没做的部分:预训练的数据加倍、上下文长度翻倍、按照RLHF微调出了chat版本、允许商业使用、在第一天就上了HuggingFace排行榜、推出了微调和部署的官方指南……不得不说这个团队开源做得的确是到位和专业。

不难想象 LLaMA 2 凭着自己的表现和 license 很有可能会成为未来一段时间学术界和工业界 LLM 项目的基石。想要从头开始预训练类似模型的团队会逐渐变少,依然坚持做的团队需要找到更独特的切入点/领域;相对应的,会有更多更多的团队会从 LLaMA 2开始计划和实施自己的项目,围绕 LLaMA 2 做微调、做部署、做服务的生态会越发繁荣。
43
滑板上的AI少年
1年前
灯塔亮起的一刻,Builder 的无限快乐 🏰
00:07
00
滑板上的AI少年
1年前
最近同时在使用 A100 TPU 做大规模训练,尝试了各自生态里的工具对于训练做了优化。TPU 的确是实打实非常好的训练硬件资源,速度快、吞吐量大、配套的分析和优化工具也到位。只可惜一直以来完全被 Google Cloud TensorFlow 所绑定,跟外界的生态联系很少,和 PyTorch 以及 HuggingFace 基本绝缘,工具的易用性和文档也做得不够好。

如今 GPU 显卡短缺,推动了外界考虑使用 TPU 的动力,希望可以促使 TPU 能够更好地融入外界的机器学习生态。
00
滑板上的AI少年
2年前
最近因为一个契机,我从头开始参与基础大模型的训练开发。亲身经历去实践这个过程令我兴奋,也让我学到很多。有一些心得体会可以分享:

1. 人们常说GPT模型学习了整个互联网的数据,听上去只要能够把整个互联网爬下来就可以了,这个说法并不准确。训练的原始数据的确是来自互联网(CommonCrawl和私域的内容),但是实际拿来训练用的只是其中的子集——一个精心挑选的高质量子集。Sam Altman和Lex Fridman的访谈中说过,他们在数据上的大部分努力是去筛选信息,而不是堆积信息。原始数据需要经过大量的筛选、去重、格式化的处理,这个过程耗时耗力,也往往被忽视,但却是至关重要的。

2. 随着模型的参数上到百亿甚至千亿,很多新的能力开始涌现,而很多工程上的麻烦也随之而来。为了应对如此庞大的数据和模型体量,系统里几乎每个角落都需要优化,从数据处理、切分、训练时的样本和机器分布、梯度下降的稳定性、存储等等,各个方面都需要对应做提升,避免成为短板。一个成功的大模型背后离不开几十上百个细节的工程优化。

3. 一个还不成熟、有待考验的心得:现在想要做一个LLM,你并不需要一支庞大的团队。你只需要不到10个有经验、有行动力、能够高效合作的工程师就可以了。Meta、OpenAI、HuggingFace等团队都为这个生态提供了非常实用的轮子,只要使用得当,就可以获得明显的助力。当然,人数上可以精简,GPU计算资源还是得管够。
2361
滑板上的AI少年
2年前
雨过天晴,阳光明媚,各有其美。
10
滑板上的AI少年
2年前
看GPT-4现场demo的感想:
1. 相比于官方宣传里强调的GPT-4在SAT、GRE考试上取得的成绩,它在多模态中展现出的能力更加让人感到惊艳。Demo中,Greg尝试了几张截图和照片,GPT-4都能够详细地讲述内容和细节,甚至可以根据一张手绘的草图写出对应的网页HTML代码。等视觉方面的能力开放出来之后我想要好好试试。
2. 在demo中,GPT-4基于开发者文档的内容提出有效的解决方案和代码,基于法律条文解答税务问题,并用通俗易懂的语言一步一步地解释,这种使用方式非常有趣。现实社会中的很多文章并不是为普通人写的:从法律条文到专业文献再到开发者文档,写作所追求的往往是准确度、覆盖面、专业度,但偏偏并不是普通人易读性。因此,我们需要雇佣专业工作者,例如律师、咨询顾问,来作为中间的桥梁,从一个实际问题中找到对应的文献,获得准确的解答。Demo中展示出来的效果是,GPT-4可以做类似的事情,基于专业文献找到答案,用通俗易懂的语言解答个人的疑问,达到为普罗大众赋能的作用。
3. 和上面第二点相关,像是专业的工具文档,之前是针对开发者写作,那未来是否会变为针对LLM写作,从格式到内容到呈现方式,都为了能够更好地被模型输入而优化?
4. OpenAI的现场demo感觉非常好,苹果为硬件产品发布会树立了标杆,OpenAI为AI软件发布会也树立了一个好的榜样。
5. 一遍一遍提醒自己做预期管理:不要根据demo去推断GPT-4的能力,还是得到手之后试试。Interpolation不可取……
1434