才刷到Sebastian Raschka 这篇The State Of LLMs 2025: Progress, Problems, and Predictions,好文推荐!
magazine.sebastianraschka.com1.推理年、RLVR和GRPO
2.GRPO:年度研究宠儿
3.法学硕士架构:路的分叉?
4.推理-时间缩放和工具使用之年
5.年度词汇:Benchmaxxing
6.用于编码、写作和研究的人工智能
7.边缘:私人数据
8.从头开始构建法学硕士和推理模型
9.2025年的惊喜和2026年的预测
剧透:以下是一些让我印象深刻的惊喜
1.几个推理模型已经在主要数学竞赛中取得了黄金级别的表现(OpenAI与未命名模型、Gemini Deep Think和开放权重DeepSeekMath-V2)。我对这种情况总体上发生并不感到惊讶,但我对这种情况已经在2025年而不是2026年发生了感到惊讶。
2.Llama 4(或一般的Llama)在开放权重社区几乎完全不受欢迎,Qwen的受欢迎程度超过了Llama(通过Nathan Lambert的(TODO:链接)ATOM项目报告的下载和衍生品数量来衡量)。
3.Mistral AI在其2025年12月宣布的最新旗舰Mistral 3模型中使用DeepSeek V3架构。
4.除了Qwen3和DeepSeek R1/V3.2之外,在开放重量最尖端模型的竞争中还出现了许多其他竞争者,包括Kimi、GLM、MiniMax和Yi。
5.与由单独的实验室开发相比,更便宜、更高效的混合架构已经成为领先实验室(Qwen3-Next、Kimi Linear、Nemotron 3)的更大优先事项。
6.OpenAI发布了一个开放权重模型(gpt-oss,今年早些时候我写了一篇关于它的独立文章)。
7.MCP(加入Linux基金会)已经成为代理式LLM系统中工具和数据访问的标准(目前);我预计生态系统在2025年会更加分散,至少到2026年。
以及一些进入2026年的预测
1.我们可能会看到一个行业规模的、面向消费者的扩散模型,用于廉价、可靠、低延迟的推理,双子座扩散可能首先出现。
2.开放权重社区将缓慢但稳步地采用具有本地工具使用和日益增长的代理能力的LLM。
3.RLVR将更广泛地扩展到数学和编码以外的其他领域(例如化学、生物学等)。
4.经典RAG将作为文档查询的默认解决方案慢慢消失。开发人员将更多地依赖更好的长上下文处理,而不是对每个文档相关查询进行检索,特别是因为将有更好的“小”开放权重模型。
5. 许多LLM基准和性能进步将来自改进的工具和推理时间扩展,而不是来自培训或核心模型本身。看起来LLM正在变得更好,但这主要是因为周围的应用程序正在改进。与此同时,开发人员将更加专注于降低延迟,并使推理模型在不必要的地方扩展更少的推理令牌。不要误会我的意思,2026年将进一步推动最先进的发展,但今年进步的比例更多来自推断,而不是纯粹来自培训方面。