美国的 AI 学术圈最近嗨起来了强化学习之父 Richar

即刻App年轻人的同好社区

下载

OrangeAI

8月前

美国的 AI 学术圈最近嗨起来了
强化学习之父 Richard S. Sutton 和 AlphaGo 的领导开发者 David Silver 要通过麻省理工出版社发布新书《智能的设计》
其中的一个章节《体验时代》在网上疯传。
大家都说这是几年来读的最激动人心的篇章。

这个章节之所以引发广泛共鸣，是因为它不仅技术上前瞻，更在哲学上提出了一个令人振奋的命题：AI 不再是人类的影子，而是一个能自主成长、探索未知的智能生命体雏形。

《The Era of Experience》的 10 个精华要点：

1. 从“人类数据时代”迈入“体验时代”

AI 正从依赖人类数据训练（如 LLMs）转向依赖自身与环境互动所产生的经验数据。这种转变将打破人类知识的天花板，开启真正的超人类智能。

2. AlphaProof 的突破性案例

AlphaProof 通过与证明系统的互动，自主生成了上亿条数学证明，最终在国际数学奥林匹克中达到银牌水平，首次展示了“经验学习”超越人类数据的潜力。

3. “经验流”将取代短期交互

未来的 AI 不再是一次性回答问题的工具，而是像人类一样拥有“终身学习”的能力，能在长期目标下不断适应、优化和进化。

4. 丰富的动作与观察空间

AI 将不再局限于文本输入输出，而是通过传感器、API、用户界面等多种方式与世界互动，具备真正的“感知-行动”能力。

5. 奖励机制将“落地”现实

AI 的学习目标将不再由人类主观评分决定，而是基于现实世界的反馈信号（如心率、考试成绩、实验结果），实现真正“以结果为导向”的学习。

6. 非人类推理方式的崛起

AI 将发展出超越人类语言的推理方式，如符号、连续、可微分计算等，摆脱人类思维的局限，发现全新知识与策略。

7. 科学发现将被加速

AI 将能自主设计实验、运行模拟、分析结果，推动材料科学、药物研发、气候工程等领域的突破，成为“科学合作者”而非工具。

8. 安全性可能反而增强

体验智能体能感知环境变化、识别人类不满并自我调整，具备“自我纠偏”能力，避免固定系统在现实中失效。

9. 强化学习的全面复兴

文章呼吁回归强化学习的核心理念，并将其扩展到现实世界的复杂环境中，重拾价值函数、探索策略、世界模型与时间抽象等经典方法。

10. 体验数据将超越人类数据

最终，AI 自主生成的经验数据将远超人类数据的规模与质量，成为推动智能进化的主引擎。

https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

点击阅读原文

24 022

来自圈子

AI探索站

101379人已经加入