即刻App年轻人的同好社区
下载
App内打开
雅芳af
2年前
Kimi发布长文高效推理架构Mooncake技术报告

Mooncake 采用以 KVCache 为中心的解耦架构,将预填充集群与解码集群分离,并充分利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源,实现 KVCache 的解耦缓存。

Mooncake 的核心是其以 KVCache 为中心的调度程序,它在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡。与假设所有请求都会得到处理的传统研究不同,Mooncake 面临着高度超载场景带来的挑战。

为了缓解这些问题,开发了一种基于预测的早期拒绝策略。实验表明,Mooncake 在长上下文场景中表现出色。与基线方法相比,Mooncake 在某些模拟场景中可以实现高达 525% 的吞吐量提升,同时遵守 SLO。在实际工作负载下,Mooncake 的创新架构使Kimi能够处理 75% 以上的请求。

github.com
04

来自圈子

圈子图片

人工智能讨论组

475537人已经加入