DeepSeek昨天发了一篇新研究论文叫“Engram”,地址:
github.com,
上午仔细看了下,记录几个对印象比较深的点。
这篇论文真正想解决的问题:
现在的大模型,把「记忆」和「推理」全都塞进 Transformer 的前向计算里了。
结果:
1)查一个固定事实,也要一层一层算
2)早期层一边学结构,一边被迫背知识
3)算力被大量消耗在“本不需要推理的事情”上
核心假设:
不是所有信息都值得用推理去获得,有些东西只需要“被想起来”。
于是提出了:Conditional Memory(条件记忆)。
---
Engram 的核心思想
1)用 N-gram 当“记忆地址”
2)用 Multi-Head Hashing做 O(1) 查表
查到的是 专门的 memory embedding(经过训练获得,不是 token embedding)
3)再通过 上下文门控(gate),决定要不要用这段记忆
本质上就是:把“离散、稳定、可复用的知识”,从连续推理计算中剥离出来。
---
论文提到:“传统架构迫使 Transformer 早期层承担了本不属于它的记忆负担”
通过对早期层logit的观察,它们更适合如下任务:
- 词法
- 结构
- 组合关系
但因为没有独立记忆机制,它们被迫用连续参数去“硬背事实”
这就是架构分工出了问题。有了 Engram 之后,早期层更“干净”,中高层反而推理能力更强
---
那这对实际工程有什么意义?
针对Engram 本身,短期内几乎不可能直接用上。原因是Engram是LLM内一部分,重新训练大模型,成本和时间都不现实。
但这篇论文也给了一个新的判断标准,在做Context Engineering时,哪些信息值得让 LLM 推理;哪些信息应该被“查表式”处理,或许能够重新审视现有方案;
#DeepSeek #Engram # ContextEngineering