即刻App年轻人的同好社区
下载
App内打开
_XM佬
249关注399被关注4夸夸
.
置顶
_XM佬
1年前
年前做一个约炮软件
评论区催更
*2024
20
_XM佬
1月前
联邦学习是一点不提、直接把google 17年的成果包装成自己的🤣

Chao.: 前天Prime Intellect宣布用去中心化的方式完成了第一个百亿参数模型的训练。训练耗费了7万小时的H100 GPU时间,算力来自全球三大洲30个不同的提供方。 我曾认为那些号称支持去中心化训练的项目都只是忽悠(事实上大部分也确实是),因为大模型训练不仅依赖算力,对训练集群的整体架构也有极高要求。 大模型训练已发展到10万个H100级别,这种多卡集群依赖复杂的分布式计算技术,节点之间必须具备极高的带宽和极低的延迟。目前大家普遍使用的InfiniBand网络带宽可达400Gbps,延迟低至纳秒级别。除了算力和通讯需求,分布式存储、高效缓存、节点同步和一致性、热管理与容错也都是难题,可以说大模型训练满地都是坑。 那Prime Intellect是怎么实现的呢?在2023年11月,DeepMind提出了一个叫DiLoCo的去中心化训练方法,它的工作原理是这样的: 想象一个跨国企业的培训系统:传统方式是总部每天都要和所有分公司实时通信,每个分公司每做一个培训都要立即向总部汇报,这样会导致大量通信开销。DiLoCo设计了两层管理系统:总部先给每个分公司一份相同的培训手册(初始模型权重),各分公司进行500次独立培训(本地训练步骤),然后计算"经验总结"(伪梯度)= 培训后的知识 - 原始知识,总部收集所有分公司的经验总结,整合后制定新的培训方向。 通过这个方式,通讯需求降低了500倍,而在实验中,模型性能几乎没有损失。不过DeepMind只是公布了方法论,DiLoCo本身是个闭源实现,只在Google内部使用,实践中也只实现了4亿参数的训练,这个规模的模型并不真正具备实用性。 Prime Intellect在原始DiLoCo方法的基础上做了完整的开源实现,命名为OpenDiLoCo,同时进行了很多架构改进,并在最近成功训练了100亿参数模型,是原始实验规模的25倍。虽然百亿参数模型与GPT-4或Claude 3.5还有显著差距,但经过合理优化后已能胜任很多实际场景。 当然从实验细节看,现在离"一人一卡就能参与训练"还有很大距离,但这种方式已经让模型训练从少数科技巨头的专属游戏,迈向了更民主的时代。具体技术细节很复杂,不仅仅是累计500次训练汇报一下这么简单,有希望了解更多细节可以参考下方链接

00
_XM佬
2月前
平静 积极 快乐
10
_XM佬
2月前
创造力如同period
灵感到来的同时 如果能在体力极限耗尽前
完成既是完成 烂尾既是烂尾

身体好的时候是1-2天
差的时候是5-8h

之所以是一个月内或者3天内
实际是硬等这个period
刚好等到是3天
大部分时间是garbage time用来浪费
00
_XM佬
2月前
宇宙一直在膨胀但是我们观察到的还是没有变化
与之对应的我们还能回忆过去、但是回不到从前
00
_XM佬
2月前
在想如何判断一个人是否失联了

很自然的想到在身上安装一个装置
通过这个装置检测生物信息

仔细一想生物装置也只是基于时间的物理信号变化

那么只需判断是否在线
能否持续产生交互
能否保持离散分布一致
能否基于时间持续变化

那么时间基于什么呢
真的存在介质吗
22
_XM佬
3月前
物体的移动必定伴随空间的弯曲🙂‍↕️
00
_XM佬
4月前
想买个天文望远镜看月亮了 😶‍🌫️
00
_XM佬
4月前
01
_XM佬
4月前
00
_XM佬
4月前
法国上大分 但是Telegram
161