谷歌最近新发的论文 Nested Learning,甚至有人称之为 Attention Is All You Need 2.0 版本。
模型自我迭代一直是我非常感兴趣的话题,尤其做agent产品时,很多context engineering的活儿还挺烦挺枯燥挺难搞的,如果能把业务的脚手架内化到模型里,效果会有显著的提升。比如过去把lora、Ip adapter、PE优化等训到基模里,应用层就轻松很多,且效果的质量和泛化性都更好了。
作为一个应用层的产品,而非专业算法,看了之后,把自己的理解和思考写出来,期待与大家的交流,尤其来自算法同学的纠偏。
论文地址:
abehrouz.github.ioNest learning试图解决大模型应用目前面临的一个核心矛盾:静态的权重与动态的业务需求之间的割裂。如果说目前的 Transformer 架构本质上是在通过静态权重来“预测下一个 Token”,那么 Nested Learning(嵌套学习)则是在尝试构建一个能够实时自我更新的系统。
1. 架构的本质差异:静态堆叠 vs 嵌套循环
目前的 LLM(基于 Transformer)与 Nested Learning 在底层逻辑上有着显著的区别:
Transformer(当前的主流): 它的训练和推理是截然分开的。我们在训练阶段通过海量数据确定了模型的权重,一旦训练结束,这些权重就固化了。这就好比一个学生在毕业那一刻,他的知识体系就被封存了。上线后的每一次对话(Inference),模型都是在调用这份“死”的长期记忆,虽然能通过上下文窗口(Context Window)处理短期信息,但无法将其转化为长期的经验。这也是为什么模型会患有“顺行性遗忘症”——Session 一关,一切归零。
Nested Learning(新的范式): 它的核心观点是 “Architecture is an illusion”(架构即幻觉)。它不再将模型看作是层与层的简单堆叠,而是将其视为一组嵌套的优化问题。在这个视角下,架构和优化器是一体两面的。模型被设计成多个不同层级的循环,有的层级负责快速适应(类似推理),即快权重,有的层级负责慢速固化(类似训练),即慢权重,这两者在 Nested Learning 中是统一且同时进行的。
2. 仿生学原理:多频率的记忆共振
Nested Learning 之所以受到关注,是因为它在机制上更接近人脑的运作方式。大脑在处理信息时,会产生不同频率的脑波:
- 高频波(如Gamma波): 往往对应着高度集中的注意力,处理当下的、瞬时的短期记忆。
- 中低频波(如Alpha波、Delta波): 往往与记忆的整合、固化有关,负责将短期的体验沉淀为长期的认知。
Nested Learning 借鉴了这种“多时间尺度”(Multi-timescale)的机制。它将模型内部划分为不同的频率区域:
- 高频区(Fast Weights): 类似于人脑处理短期记忆的区域,能够随着当前的 Context Flow(上下文流)实时快速更新。这让模型在推理过程中就能“学会”新的东西。
- 低频区(Slow Weights): 类似于长期记忆区,更新频率极低,负责存储那些通用的、稳定的规律。
通过这种高低频的嵌套与配合,模型不再是一个机械的输入输出函数,而具备了某种程度的“生物活性”,能够在与环境交互的过程中,动态地决定哪些信息该遗忘,哪些信息该像突触生长一样被固化下来。
3. 对应用层产品的潜在影响
如果这种从“静态”到“动态”的转变能够落地,我们构建 AI 产品的方式或许会发生几个本质的变化。
第一,模型角色从“工具”转向“养成系员工”。目前的模型更像是一个标准化的工具,出厂设置决定了它的上限。而基于 Nested Learning 的模型,更像是一个新入职的员工。起初大家的基础能力(基座)差异不大,但在处理具体业务的过程中,它会持续接收反馈(正向的采纳、负向的修正)。
这种反馈不再仅仅停留在 Prompt 层面,而是会通过“快权重”实时沉淀到模型里。一段时间后,它将变成一个完全适应你业务逻辑的、独一无二的模型。壁垒将由数据规模转向“业务交互的质量”。
第二,Context Engineering 的“内化”。过去大半年,为了解决模型记性差、不懂业务的问题,我们花费大量精力做 Context Engineering(上下文工程),搭建 RAG、编写复杂的 System Prompt。这本质上是在模型外部搭建“脚手架”。
当模型具备了自我迭代能力,这些外部的脚手架将被逐步拆除,能力会被内化到模型参数中。模型不再需要你每次都重复告知“你是谁”、“你的目标是什么”,这些信息已经变成了它的直觉。
第三,从“离线训练”到“在线进化”。目前的 RL、SFT(监督微调)大多是离线的、静态的。业务变了,必须重新收集数据、重新训练、重新部署。Nested Learning 提供了一种在线持续学习的可能。模型置身于真实的数据流中,边服务边学习,这种效率上的提升,在长周期看是巨大的。
当然,Nested Learning 仍然处于理论阶段,并且其在实践中的挑战依然非常多。比如,如何保证动态权重更新不导致模型不稳定或出现过拟合问题,如何在大规模应用中高效执行这种实时更新,如何在没有大量标注数据的情况下进行有效的在线学习等。
但它提醒了我们:为了业务,一方面需要修补当下的技术缺陷(如有限上下文长度),另一方面也应关注模型演进的长期方向,看哪些是长期有价值的产品建设。
未来,我们作为产品,核心工作可能不再是写 Prompt,而是为这个能够自我进化的智能体定义清晰的目标(Goal),并构建一个能够提供高质量反馈的闭环环境。毕竟,当模型能够自我学习时,决定它长成什么样子的,是它所处环境的反馈机制。
有人把论文喂给nano banana,生成了这张图,非常精准,我自己试过来,没这么好看