国内貌似都是省显卡的思路;17岁高中生一战成名,算不算大学消失说,又迈了一小步?
-----------------------------
月之暗面(Kimi)团队近日发布了一项突破性的研究,提出名为“Attention Residuals”(
arxiv.org)的神经网络架构改进技术,成功将 Transformer 中的核心“注意力机制”理念创新性地应用于网络深度维度,显著提升了大模型的训练效率。该研究引发了全球 AI 社区的高度关注,包括埃隆·马斯克在内的多位科技领袖均在社交网络上表达了赞叹。
这项重磅研究由三位研究者共同担任第一作者,其中最引人注目的是年仅 17 岁的高中生研究员陈广宇。另外两位共同一作分别是 Kimi 核心成员、著名旋转位置编码 RoPE 的提出者苏剑林,以及 Kimi Linear 架构的第一作者张宇。3 月 17 日,“月之暗面 Kimi”官方账号发布微博,回应埃隆 · 马斯克(Elon Musk)点赞其 Attention Residuals 技术报告,幽默称:“你的火箭造得也不错!”。