即刻App年轻人的同好社区
下载
App内打开
曼祺_火柴Q
10月前
连更一下!上周 DeepSeek 发布 NSA、Moonshot 发布 MoBA,都聚焦注意力的改进。
这期我邀请了两位都做过注意力改进的嘉宾一起聊——分别是 InfLLM 的作者肖朝军和 MoA 的作者傅天予。

两位尽可能深入简出地解释了 Attention 的优化历史,NSA MoBA 的改进与亮点和未来趋势。

Attention 的优化过程,其实就像一根绳子,能串起大模型性能与效率优化的历史和基本思路。

不是每个人都需要或有精力去了解 AI 的具体技术,但越来越多人会被 AI 影响,我们可能都要储备一点“智能思维”和理解机器的“常识”。

103: 用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进

晚点聊 LateTalk

76

来自圈子

圈子图片

一起听播客

113711人已经加入