AI的下一阶段,不再是「算力战争」,而是「Context Memory 战争」
最近跑Multi-Agent投研系统,一个发现让我彻底改变了认知:
GPU还没跑满,内存已经先崩了。
真正吞噬内存的不是模型本身,而是KV Cache——大模型推理时每生成一个Token,都要缓存Key和Value。百万Token上下文+高并发,KV Cache轻松膨胀到数百GB甚至TB级。
HBM快但太贵,不可能让所有数据住进去。AI被迫进入「分层内存时代」。
这就是CXL(Compute Express Link)横空出世的背景——它让内存从「绑定资源」变成「共享资源」,Multiple GPU/CPU可以共享一个巨大的外部内存池。
反直觉的是:CPU正在迎来结构性复兴——谁来当内存池的超级交警?必须靠CPU。
当市场还死死盯着英伟达K线图时,一场更底层的架构变革已经开始了。
#AI #CXL #MemoryWall #KVCache