这期从 V4 切入,自然而然聊到了 Kimi、Seed、MiniMax、Qwen、智谱等中国大模型团队的努力和进展。两位嘉宾:模型架构背景的刘益枫和 Infra 背景的赵晨阳,刚好有互为补充的视角。
关于从字节 Seed 提出的 HC 到 DeepSeek 的 mHC,再到 Kimi 的 Attention Residuals 的讨论,还有 Kimi 和 DeepSeek 围绕 Muon 优化器的改进,又或者是 DeepSeek 对北大团队开源的 TileLang 的深度使用……
这些成果相互联系、彼此激发,它说明一定的人才密度和竞争烈度后,会迸发怎样的质变。
在《晚点聊》 158 期聊 DeepSeek 组织的最后,我说:“DeepSeek 不用成为全村的希望”。
现在可以继续说:村里有很多厉害的年轻人 O(∩_∩)O