连更一下!上周 DeepSeek 发布 NSA、Moonshot 发布 MoBA,都聚焦注意力的改进。
这期我邀请了两位都做过注意力改进的嘉宾一起聊——分别是 InfLLM 的作者肖朝军和 MoA 的作者傅天予。
两位尽可能深入简出地解释了 Attention 的优化历史,NSA 和 MoBA 的改进与亮点和未来趋势。
Attention 的优化过程,其实就像一根绳子,能串起大模型性能与效率优化的历史和基本思路。
不是每个人都需要或有精力去了解 AI 的具体技术,但越来越多人会被 AI 影响,我们可能都要储备一点“智能思维”和理解机器的“常识”。