即刻App年轻人的同好社区
下载
App内打开
Simon的白日梦
8月前
看完这篇文章你(我)就看懂了啥是上下文工程~~🥹
超越 Prompt 和 RAG,「上下文工程」成了 Agent 核心胜负手
🧐 文章提出“上下文工程”是 Agent 的核心竞争力,它不仅包含 Prompt 与 RAG,还强调通过转移、压缩、检索、隔离、缓存五大方法来管理复杂上下文,从而避免性能衰减与成本失控,最终决定 Agent 的效果与可扩展性。
➡️链接:mp.weixin.qq.com
✨重点

● 🧠 上下文瓶颈:Agent 构建过程中,上下文不只来自人类指令,还包含工具调用和推理链,导致 token 膨胀与 context decay(注意力分散、性能下降)。

● 🌀 五大解法:

1. Offload 转移:将冗余信息存入外部文件/系统,只传摘要或索引回模型。

2. Reduce 压缩:通过摘要、剪裁减少上下文,但需警惕信息丢失。

3. Retrieve 检索:动态调取知识库/历史对话/工具输出,类比 RAG,但强调简洁有效。

4. Isolate 隔离:多 Agent 分担上下文,减少干扰,但在高协作任务如 coding 中风险大。

5. Cache 缓存:KV 缓存机制可显著降低 token 成本和延迟,但无法解决长上下文性能衰减。

● 📉 Context Decay 问题:Chroma 报告指出,随着输入 token 增加,模型推理能力下降,这成为业界公认的关键痛点。

● 🛠️ 实践案例:Manus 在 agent 中平均 50 次工具调用,若不做优化单次成本可达 50 万 token;Cognition 则强调高质量摘要甚至需微调模型。

● 🔍 记忆与检索融合:Agent 记忆可分为情景、语义、程序、背景四类,本质上大规模记忆读取就是检索的特殊场景。

● 🧩 多 Agent 分歧:Anthropic 倾向多 Agent 并行收集信息;Cognition 则认为多 Agent 在 coding 等高依赖任务中弊大于利。

● ⚡ 缓存效益:Claude Sonnet 上启用 KV 缓存能将 token 成本降低 10 倍,但依赖厂商机制,可能带来“厂商锁定”。

● 📈 The Bitter Lesson 启示:少结构、更通用的方法才能匹配模型能力的持续扩展,复杂人工结构可能随模型提升而成为瓶颈。

● 🏗️ 框架观点:LangChain 的经验强调透明、可组合的底层编排框架比“黑箱式 agent 抽象”更有价值;MCP 协议的兴起正是为降低工具集成混乱。
00

来自圈子

圈子图片

人工智能讨论组

475410人已经加入