既然当前 LLM 在复杂 Agent 任务上表现不佳,那出路在哪?我认为,基于参数的后训练优化,特别是强化学习(RL),是当下更可靠的方向! 从 OpenAI 的 PPO 算法,到今年 DeepSeek 的 GROP,都展示了 RL 在提升模型能力和效率上的巨大潜力。RLHF 技术更是改善模型表现的关键。 同时,像 LoRA/QLoRA 这样的 SFT 高效微调技术也在快速发展,能以较低成本优化大模型。 虽然我们期待 LLM 的突破,但现阶段,深耕 RL 可能是让 Agent 真正“智能”起来的关键一步。为什么说强化学习(RL)可能是 Agent 的未来?RL 具体如何应用在 Agent 上?SFT 微调技术有哪些优势?想深入了解 Agent 的前沿技术方向,我在知识星球《AI桐木和他的贵人们》等你探讨!