最近看了Dwarkesh对陶哲轩(Terrace Tao)的一期访谈(
www.youtube.com),主题是AI 会怎样影响数学、科学发现和人的理解。
陶哲轩对AI的态度是既不悲观,也不兴奋过头。他没有把 AI 讲成“马上替代数学家”的神话,也没有把它当成只能写套话的玩具。他的判断是:AI 确实会越来越强,但“得到答案”和“获得理解”仍然是两回事。
如果要快速总结这期节目的话,大概是:未来很长一段时间里,最强的不是“纯 AI 数学家”,而是“人类 + AI”的混合体;而人类最重要的职责,不是算得更快,而是判断什么值得做、什么算理解、什么能变成可传播的知识。
【分段笔记】
1. 开普勒的故事
访谈一开头,陶哲轩讲开普勒如何发现行星运动定律。这个故事特别妙,因为它几乎天然就是今天“AI for science”的一个历史隐喻。
开普勒一开始并不是直接得到正确理论。他先相信一种很漂亮、很“数学美”的模型:用柏拉图立体去解释行星轨道间距。这个想法很优雅,但最后被数据打脸。真正让他走向突破的,是第谷·布拉赫留下的高质量观测数据,以及他在这些数据上长期、反复、近乎执拗的试错。
所以陶哲轩才会半开玩笑地说,开普勒有点像一个“高 temperature的 LLM”——不是一击即中,而是在大量尝试里不断提出猜测,再用数据去筛掉错的路径。
我们常常把科学发现想象成“先提出一个完美理论,再验证它”;但很多真正重要的进展,实际是先有高质量数据,再有大量试探,最后才逐渐看见结构。这和今天很多 AI 系统的工作方式非常像:它们擅长在巨大的可能性空间里搜索、组合、试错,但这不自动等于“理解”。
2. 当生成变得极便宜,真正稀缺的是筛选、验证和判断
陶哲轩反复强调一个判断:未来科学界面临的最大变化,也许不是“想法太少”,而是“想法太多”。
如果 AI 可以低成本地产生海量猜想、解释、论文草稿、研究方向,那瓶颈就会立刻从“生成”转移到“筛选”。问题不再是“能不能提出一个说法”,而是:哪些东西值得认真验证?哪些只是看起来像创新?哪些能成为真正有统一性的概念?
这其实非常像今天内容互联网正在经历的事。生成几乎免费以后,噪声会指数级增长。对科学来说更麻烦,因为科学的反馈周期比内容平台长得多。一个模型写出十篇“像样的论文”,并不代表它真的推动了学科;有些结果可能要几年、十几年后,才知道到底有没有价值。
陶哲轩提到,很多重要理论在刚出现时,并不完美,甚至明显带着缺陷,但它们依然是进步,因为它们把一个领域往更统一的方向推了一步。换句话说,科学史里真正珍贵的,往往不是“从第一天起就完全正确”,而是“它是不是打开了一个新的理解框架”。
问题在于,这种价值很难靠自动指标直接识别。引用量、讨论度、论文数量都可以参考,但都不够。真正的判断,仍然离不开专家社群、时间检验、跨领域传播能力,以及大量看起来“不高效”的人类理解活动。
3. AI 会让研究“更广、更快、更丰富”,但未必更深
这是我觉得整期里最克制、也很重要的一点。陶哲轩并不否认 AI 已经很好用了。相反,他很明确地承认:AI 会显著提升研究生产力。比如查资料、整理文献、生成图表、写代码、改写表达、搭结构,这些原来可能花几个小时甚至几天的事,现在确实可以压缩到很短。
但他的判断是:AI 带来的提升,很多时候更像“广度提升”而不是“深度突破”。 论文会因此包含更多实验、更多图示、更多文献线索、更多延展讨论,但最难的那一下——真正决定问题是否被看穿、结构是否被看见的那一下——依然主要发生在人脑里。
他区分了“artificial intelligence”和“artificial cleverness”。今天很多系统非常“聪明”,但这种聪明更像高强度模式匹配、快速试错和工具调用,并不等于它已经形成了稳定、可积累、可迁移的理解。它能做出一个局部漂亮动作,不代表它知道自己为什么这么做;它能在一个问题上碰巧走通,不代表下次会因此真正成长。
这个区分特别重要,因为现在很多人高估 AI 的地方,恰恰就在于把“完成任务”直接等同于“获得理解”。而陶哲轩不断提醒:这两个层次,中间还隔着很长的一段路。
4. 就算 AI 证明了定理,人类也未必因此“懂了”
访谈后半段讨论了一个非常哲学、但又非常现实的问题:如果未来 AI 借助 Lean 这类形式化证明系统,真的证明了某个重大数学命题,比如黎曼假设,那人类算不算也理解了它?
陶哲轩的态度很谨慎。他认为完全有可能出现这样的情况:机器给出了一套严格正确、但人类几乎无法直观把握的证明。它可能像一段极长的“汇编代码”,每一步都合法,但整体上没有给人带来那种“啊,原来是因为这个结构”的理解感。
这也是为什么他特别重视形式化证明和“半形式化语言”之间的差距。形式化语言解决的是“证明是否成立”;但真实科研里,人们大量交流的恰恰是那些还没有完全形式化的内容:直觉、路线、猜想、信心、类比、局部证据、哪些方向看起来 promising、哪些虽然还说不严但大概率对。
换句话说,科学并不只由定理构成,也由大量“尚未定理化”的思考过程构成。未来如果 AI 想真正深度参与科学,不只是要会写 formal proof,还得更好地进入这种半形式化的人类交流层。
而这件事,恰恰也是知识工作的核心:最后能被社会吸收的,从来不只是“正确结果”,还包括它能否被解释、被组织、被教学、被复用。
5. 未来最强的,还是人机协作
整期访谈里,陶哲轩最稳的一条判断是:人机混合体会在很长时间内主导数学。
原因很简单。AI 的优势很明显:快、广、便宜、可大规模试探;人类的优势也同样明显:知道什么问题重要,知道什么结构值得命名,知道什么时候该怀疑一个结果,知道怎样把答案变成他人也能掌握的知识。
这几种能力并不在同一个维度上,所以短期内不是简单替代关系,而是重新分工关系。
过去很多高价值工作,是“谁更能算、谁更能查、谁更能铺材料”;但在 AI 时代,这些能力会越来越被压缩成基础设施。真正往上走的,反而会变成:提出好问题、设计好评估、识别假进展、抽象出可迁移结构、把复杂结果讲明白。
这可能也是为什么,陶哲轩在讲自己的研究习惯时,会特别重视合作、写博客、偶然交流、跨领域学习。这些看起来“不够自动化”的部分,恰恰最接近真正的创造过程。
【总结】
1. 生成不再稀缺,判断力才稀缺。 AI 会让“提出一个看起来像样的说法”变得极其容易,但真正有价值的是识别什么值得投入验证。
2. “答案”不等于“理解”。 无论是做数学、做研究,还是做产品,能跑通一个结果和真正知道它为什么成立,始终是两件事。
3. AI 更像广度放大器,不是自动深度机。 它非常适合扩展搜索空间、降低试错成本、丰富表达层,但深层结构洞察仍然主要依赖人。
4. 未来会越来越重视“翻译层”。 从模型输出,到专家理解,到团队协作,到公众传播,中间需要大量把结果转成可解释、可复用知识的工作。
5. 人机协作不是过渡期方案,而可能是长期主流。 最有竞争力的人,不一定是单点能力最强的人,而是最会把自己的判断力和 AI 的试探能力拼起来的人。
总之,AI 正在把“会做”迅速商品化,但“会判断、会理解、会讲清楚”反而变得更贵。
这可能不只是数学的未来,也是大多数认知型工作的未来。