对大模型研究的预测,这篇文章里讲的挺好的
里面提到的一些观点:
## 关于训练范式与能力方向: RLVR 的范式效果有上限
1) RLVR 将从目前主要集中在数学和代码,扩展到「解释评分」与更多学科领域,如化学、生物等,成为 2026 年之后持续发力的核心技术之一。
2) 过程奖励模型(PRM)目前效果一般,但作者判断会在未来 RLVR 体系内复兴,用来评价推理过程而不仅是最终答案,尤其受到 DeepSeekMath-V2 等工作的推动。
## 关于架构与效率方向
1) 未来几年内,SOTA 模型仍会以解码式 Transformer 为主,不会在短期内被完全新架构取代。
2) 但会持续叠加 MoE、Gated DeltaNet、Mamba、KDA、DSA 等效率优化层,以降低训练/部署成本,高效混合架构将成为一线实验室的重点而非边缘研究。
3) 文本扩散类模型会在「低延迟、廉价推理」场景中产业化,例如预期出现 Gemini Diffusion 这类工业级模型,但整体建模质量暂不取代主流 Transformer LLM。
## 工具使用与智能体化
1) 大模型将越来越以「工具用户」而非「单体知识库」的角色出现,搜索、计算器和专用 API 的使用会继续压低幻觉率,尤其在本地部署生态中会逐步成为默认模式。
2) 开源社区会「缓慢但稳定地」采纳带本地工具调用和更强 agent 能力的模型,MCP 等统一协议会成为事实标准。
## 数据、RAG 与长上下文
1) 在文档问答等场景中,「经典 RAG + 检索每个问题」会逐渐不再是默认方案,开发者会更多地依赖更强的长上下文能力,尤其是更好用的中小开源模型出现后。
## 关于 持续学习与知识更新:
1) 2027 年前后会出现更多针对「持续学习」的工程与算法进展:在不断引入新数据的同时尽量减轻灾难性遗忘,让模型不必频繁从零开始预训练。但尽管目前还缺乏真正的突破,但行业讨论度已非常高,作者预计这是未来几年重要发力点之一。
## 评测与Benchmark:
1) 公开基准被过度优化导致「分数失真」的问题会继续恶化,排行榜不再可靠,但基准依旧是“必须跨过的门槛”。
2) 更好的评测方法和更透明的报告,将成为推动领域健康发展的关键共识。
3) 大语言模型不局限于线上的评测集,更多被要求能够在现实世界中获取反馈。