即刻App年轻人的同好社区
下载
App内打开
西里森森
3月前
最近,谷歌研究团队新发了一篇很牛的论文。

他们推出了他们的深度研究型智能体——TTD-DR(Test-Time Diffusion Deep Researcher),翻译过来就是测试时扩散深度研究员。

说白了,就是让AI学会像人一样打草稿。

如果让你写一篇深度研究报告,你会怎么做?

一般都是先列个提纲,然后写个初稿,接着查资料、改来改去,最后才能交出一份像样的成果。

这个看似平常的过程,却难倒了一众AI。

比如今年2月,OpenAI推出了Deep Research功能,号称能帮你写出专业级的研究报告。Perplexity紧随其后,Grok也不甘示弱。

一时间,AI研究助手赛道热闹非凡。

但问题来了,现有的AI研究助手基本都是一条道走到黑:接到任务,搜索资料,生成报告,完事儿。

这就像考试时不打草稿直接往答题卡上写,一旦跑偏了就很难纠正。

谷歌团队仔细研究了人类的写作习惯后发现,没有人是从第一个字写到最后一个字的。

1981年的一项认知研究就指出,人类写作是个反复迭代的过程:先有个大概框架,然后不断修改完善。
这个过程中,我们会不停地查资料、调整思路、推倒重来。

有意思的是,这个过程跟物理学里的扩散模型惊人地相似。
扩散模型简单说,就是从一团噪声开始,逐步去噪,最终生成清晰的图像。

谷歌团队灵机一动:既然能用这个方法生成图像,为啥不能用来生成研究报告呢?

TTD-DR的核心创新在于两个机制同时发力。

第一条腿是去噪优化。
系统先根据用户需求生成一个粗糙的初稿,就像画画时的草图。
然后,每次搜索到新信息,就对这个草稿进行一次修订。

这个过程就像雕刻家一点点雕琢大理石,每一刀都让作品更接近理想状态。

第二条腿是自我进化。
系统的每个组件(制定计划的、生成问题的、搜索答案的、写报告的)都会产生多个版本,然后通过内部评分机制选出最优解。
这就像让五个人同时写同一份报告,然后取各家之长,合成最终版本。

这两条腿配合起来威力惊人。
在测试中,TTD-DR在长篇研究报告生成任务上的胜率达到69.1%和74.5%,碾压OpenAI Deep Research。

在需要多跳推理的复杂问题上,准确率也提升了4.8%到7.7%不等。

论文里有个特别有意思的发现:系统在第9步修改时,就已经包含了最终报告51.2%的信息。

这意味着传统方法要搜索20次才能达到的效果,新方法不到一半的步骤就能实现。

更妙的是,这个系统会根据草稿的内容动态调整搜索策略。比如写到一半发现某个观点站不住脚,它会立即去搜索相关反驳材料。

这种灵活性是传统线性方法望尘莫及的。

研究团队还做了个有趣的对比实验,他们让系统分别用传统方法和新方法处理同样的问题,然后记录每一步的信息增量。

结果发现,传统方法的信息积累是线性的,而新方法呈现出一条优美的凸曲线——前期快速积累核心信息,后期精雕细琢。

这项技术的商业价值不言而喻。
首先是效率得到了很大提升,同样质量的报告,新方法能节省近一半的计算资源。
对于动辄烧钱几百万美元训练模型的AI公司来说,这是实打实的成本节约。

其次是用户体验,传统AI助手生成报告要等很久,因为它得把所有搜索做完才能开始写。
新方法边搜边写,用户能更早看到初步结果,体验自然更好。

最关键的是技术护城河。
这套方法不需要重新训练模型,只要在推理阶段应用就行。这意味着任何公司都能快速部署,但真正做好需要大量工程优化。
谷歌凭借在扩散模型上的深厚积累,暂时领先一个身位。

当然,TTD-DR也不是完美的。
论文坦承,系统目前只支持文本搜索,不支持浏览网页或执行代码。

这在某些场景下是硬伤,比如分析最新的财报数据,如果不能直接访问公司官网,就只能依赖可能过时的二手信息。

另一个问题是可解释性。
系统内部的多次迭代和自我进化过程就像个黑箱,很难说清楚某个结论是怎么得出的。
对于需要严格溯源的学术研究或法律文书,这可能是个大问题。

成本也是个考量因素,虽然相对效率提升了,但绝对成本仍然不低。
每生成一份深度报告,背后是几十次的模型调用。
对于个人用户可能还好,企业级应用的成本压力不小。

认知科学家早就发现,人类思维的精妙之处不在于一次就想对,而在于不断修正的能力。
从这个角度看,TTD-DR让AI向真正的智能又迈进了一步。

谷歌这次的创新,本质上也是一次向人类学习的回归。
416

来自圈子

圈子图片

AI探索站

101251人已经加入