用 AI 来做事实核查，其实更像是幻觉核查。通过信源白名单

即刻App年轻人的同好社区

下载

评论尸

7月前

用 AI 来做事实核查，其实更像是幻觉核查。
通过信源白名单，不太能解决自动化的事实核查工具。
因为你无法判断用户最终输入的是什么，如果他输入的是某篇专业的行业分析，或者干脆是某个领域的学术性报道，那么最初划定的信源范围（比如权威媒体）就可能完全不包含要核查的事项。
目前这两个版本的原理其实就只是 Reverse-Deepresearch，也就是在先有文章的情况下，列出文章中的所有事实，并独立搜索其中的每一个找到是否有公开的信息支撑。
因此，这两个工具最常见场景是用于检查正向 Deepresearch 结果中出现的原生幻觉。
我也是为了这个场景而制作的这两个工具。 //@Nothing_8: 试了一下，可能在某些情况下还是需要二次审查。
我之前干横向的时候参与过两个项目，一个是AI舆情分析，一个是自媒体文案生成。这两个项目都对内容真实性有较高的要求。
我认为提升效果的方向是两个，一个是tool的改进（信源，工作流的细粒度分解，prompt优化），一个是模型的选择（目前主要为claude sonnet粗总结，最后交给opus做最终分析）。
前者比较卡住的地方是社交平台的信源非常重要，它的可靠性要比搜索引擎好。
目前的传统搜索引擎或者是AI搜索引擎弱相关结果很多（有一次测试我们用博查搜科技新闻，博查返回了成人网站小广告，幸好没给领导展示），所以搜索引擎偏大海捞针，而这些如果是无脑塞给LLM，LLM丢上下文会很严重，所以总结也是个事情。
粗细粒度的话也是个头疼的事情，如果是针对性搜索，调用API还可以，如果是涉及到社区内容搜索的话，那时间会特别特别长，搜一次20min。
模型的话，我是想高质量，所以一般sonnet当工具函数，最后总结用opus，也是成本上的取舍。
不选择gemini的原因是非官方的API会有间歇性ban的风险，不选择deepseek的原因是目前我认为公开标称提供671B的服务商，掺水程度都很高。
最近我的计划是有空的时候去优化信源，做一个属于自己的个人聚合搜索引擎。

评论尸: 放出我昨天花了半天 vibe 出来的两个版本的“一键事实核查”器。两个的功能上都是一样的，都能实现对一整篇文章（3000～5000 字）中全部事实的核查。我的需求场景其实不是拿来验证人类写的文章，而是拿来核查 AI 生成的文章。毕竟现在 AI 写稿子又快又好，但发布之前核查起来非常麻烦。两个版本分别在 Google Opal 上和 Notion AI 里实现，功能一致但性能略有差别。 Google Opal 版完全免费，依托 Google 搜索，效果更强，但速度更慢。Notion AI 速度快一些，但效果没那么好。 Google Opal 版（你需要有 Google Lab 的访问资格）：https://opal.google/?flow=drive:/1Zlo8AgpWBOktvU16s7f7tTqYN5LunVVJ&shared&mode=app Notion AI 版：https://www.notion.com/templates/facts-check-agent

14 10