Kimi发布长文高效推理架构Mooncake技术报告

Mooncake 采用以 KVCache 为中心的解耦架构，将预填充集群与解码集群分离，并充分利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源，实现 KVCache 的解耦缓存。

Mooncake 的核心是其以 KVCache 为中心的调度程序，它在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡。与假设所有请求都会得到处理的传统研究不同，Mooncake 面临着高度超载场景带来的挑战。

为了缓解这些问题，开发了一种基于预测的早期拒绝策略。实验表明，Mooncake 在长上下文场景中表现出色。与基线方法相比，Mooncake 在某些模拟场景中可以实现高达 525% 的吞吐量提升，同时遵守 SLO。在实际工作负载下，Mooncake 的创新架构使Kimi能够处理 75% 以上的请求。

https://github.com/kvcache-ai/Mooncake

关于AI、技术与人的思考  AI社区构建/营销  Cursor Ambassador  wechat:just_flow_

47万名技术爱好者在研究人工智能or“智障”

名技术爱好者在研究人工智能or“智障”

来自圈子

人工智能讨论组