昨天DeepSeek发表了一篇新论文,提出了Engram,它给大模型加了一个“查字典式的记忆系统”,让模型遇到大量固定套路和常见模式时不用每次都靠深层网络重新计算,而是用一种确定性的哈希索引做 O(1) 速度的查表,把“静态知识/固定模式”从“动态推理计算”里剥离出来。这样做的结果是,同样的参数量和同样的计算量约束下,模型在知识、推理、代码、数学等任务上能稳定打赢纯 MoE 基线。
打个比喻就是,以前的大模型像一个全靠演算的学霸,遇到常见题型也要从定义推到结论。MoE像是同时有很多学霸,按题目类型叫两个来算,但还是在算。Engram像是给你一本超级厚的题型速查本:看到“固定套路”先翻一下,直接拿到关键提示,再把精力放在真正难的推理题上。这样模型不但更快,还更不容易把算力浪费在“重复背诵”上。
不知道DeepSeek会不会又要像去年一样在过年期间放新模型,也许这就是DeepSeek-V4将使用的技术架构。
论文地址:
github.com