最近，谷歌研究团队新发了一篇很牛的论文。他们推出了他们的

即刻App年轻人的同好社区

下载

西里森森

3月前

最近，谷歌研究团队新发了一篇很牛的论文。

他们推出了他们的深度研究型智能体——TTD-DR（Test-Time Diffusion Deep Researcher），翻译过来就是测试时扩散深度研究员。

说白了，就是让AI学会像人一样打草稿。

如果让你写一篇深度研究报告，你会怎么做？

一般都是先列个提纲，然后写个初稿，接着查资料、改来改去，最后才能交出一份像样的成果。

这个看似平常的过程，却难倒了一众AI。

比如今年2月，OpenAI推出了Deep Research功能，号称能帮你写出专业级的研究报告。Perplexity紧随其后，Grok也不甘示弱。

一时间，AI研究助手赛道热闹非凡。

但问题来了，现有的AI研究助手基本都是一条道走到黑：接到任务，搜索资料，生成报告，完事儿。

这就像考试时不打草稿直接往答题卡上写，一旦跑偏了就很难纠正。

谷歌团队仔细研究了人类的写作习惯后发现，没有人是从第一个字写到最后一个字的。

1981年的一项认知研究就指出，人类写作是个反复迭代的过程：先有个大概框架，然后不断修改完善。
这个过程中，我们会不停地查资料、调整思路、推倒重来。

有意思的是，这个过程跟物理学里的扩散模型惊人地相似。
扩散模型简单说，就是从一团噪声开始，逐步去噪，最终生成清晰的图像。

谷歌团队灵机一动：既然能用这个方法生成图像，为啥不能用来生成研究报告呢？

TTD-DR的核心创新在于两个机制同时发力。

第一条腿是去噪优化。
系统先根据用户需求生成一个粗糙的初稿，就像画画时的草图。
然后，每次搜索到新信息，就对这个草稿进行一次修订。

这个过程就像雕刻家一点点雕琢大理石，每一刀都让作品更接近理想状态。

第二条腿是自我进化。
系统的每个组件（制定计划的、生成问题的、搜索答案的、写报告的）都会产生多个版本，然后通过内部评分机制选出最优解。
这就像让五个人同时写同一份报告，然后取各家之长，合成最终版本。

这两条腿配合起来威力惊人。
在测试中，TTD-DR在长篇研究报告生成任务上的胜率达到69.1%和74.5%，碾压OpenAI Deep Research。

在需要多跳推理的复杂问题上，准确率也提升了4.8%到7.7%不等。

论文里有个特别有意思的发现：系统在第9步修改时，就已经包含了最终报告51.2%的信息。

这意味着传统方法要搜索20次才能达到的效果，新方法不到一半的步骤就能实现。

更妙的是，这个系统会根据草稿的内容动态调整搜索策略。比如写到一半发现某个观点站不住脚，它会立即去搜索相关反驳材料。

这种灵活性是传统线性方法望尘莫及的。

研究团队还做了个有趣的对比实验，他们让系统分别用传统方法和新方法处理同样的问题，然后记录每一步的信息增量。

结果发现，传统方法的信息积累是线性的，而新方法呈现出一条优美的凸曲线——前期快速积累核心信息，后期精雕细琢。

这项技术的商业价值不言而喻。
首先是效率得到了很大提升，同样质量的报告，新方法能节省近一半的计算资源。
对于动辄烧钱几百万美元训练模型的AI公司来说，这是实打实的成本节约。

其次是用户体验，传统AI助手生成报告要等很久，因为它得把所有搜索做完才能开始写。
新方法边搜边写，用户能更早看到初步结果，体验自然更好。

最关键的是技术护城河。
这套方法不需要重新训练模型，只要在推理阶段应用就行。这意味着任何公司都能快速部署，但真正做好需要大量工程优化。
谷歌凭借在扩散模型上的深厚积累，暂时领先一个身位。

当然，TTD-DR也不是完美的。
论文坦承，系统目前只支持文本搜索，不支持浏览网页或执行代码。

这在某些场景下是硬伤，比如分析最新的财报数据，如果不能直接访问公司官网，就只能依赖可能过时的二手信息。

另一个问题是可解释性。
系统内部的多次迭代和自我进化过程就像个黑箱，很难说清楚某个结论是怎么得出的。
对于需要严格溯源的学术研究或法律文书，这可能是个大问题。

成本也是个考量因素，虽然相对效率提升了，但绝对成本仍然不低。
每生成一份深度报告，背后是几十次的模型调用。
对于个人用户可能还好，企业级应用的成本压力不小。

认知科学家早就发现，人类思维的精妙之处不在于一次就想对，而在于不断修正的能力。
从这个角度看，TTD-DR让AI向真正的智能又迈进了一步。

谷歌这次的创新，本质上也是一次向人类学习的回归。

42 416

来自圈子

AI探索站

101251人已经加入