即刻App年轻人的同好社区
下载
App内打开
评论尸
6月前
用 AI 来做事实核查,其实更像是幻觉核查。
通过信源白名单,不太能解决自动化的事实核查工具。
因为你无法判断用户最终输入的是什么,如果他输入的是某篇专业的行业分析,或者干脆是某个领域的学术性报道,那么最初划定的信源范围(比如权威媒体)就可能完全不包含要核查的事项。
目前这两个版本的原理其实就只是 Reverse-Deepresearch,也就是在先有文章的情况下,列出文章中的所有事实,并独立搜索其中的每一个找到是否有公开的信息支撑。
因此,这两个工具最常见场景是用于检查正向 Deepresearch 结果中出现的原生幻觉。
我也是为了这个场景而制作的这两个工具。 //@Nothing_8: 试了一下,可能在某些情况下还是需要二次审查。
我之前干横向的时候参与过两个项目,一个是AI舆情分析,一个是自媒体文案生成。这两个项目都对内容真实性有较高的要求。
我认为提升效果的方向是两个,一个是tool的改进(信源,工作流的细粒度分解,prompt优化),一个是模型的选择(目前主要为claude sonnet粗总结,最后交给opus做最终分析)。
前者比较卡住的地方是社交平台的信源非常重要,它的可靠性要比搜索引擎好。
目前的传统搜索引擎或者是AI搜索引擎弱相关结果很多(有一次测试我们用博查搜科技新闻,博查返回了成人网站小广告,幸好没给领导展示),所以搜索引擎偏大海捞针,而这些如果是无脑塞给LLM,LLM丢上下文会很严重,所以总结也是个事情。
粗细粒度的话也是个头疼的事情,如果是针对性搜索,调用API还可以,如果是涉及到社区内容搜索的话,那时间会特别特别长,搜一次20min。
模型的话,我是想高质量,所以一般sonnet当工具函数,最后总结用opus,也是成本上的取舍。
不选择gemini的原因是非官方的API会有间歇性ban的风险,不选择deepseek的原因是目前我认为公开标称提供671B的服务商,掺水程度都很高。
最近我的计划是有空的时候去优化信源,做一个属于自己的个人聚合搜索引擎。

评论尸: 放出我昨天花了半天 vibe 出来的两个版本的“一键事实核查”器。 两个的功能上都是一样的,都能实现对一整篇文章(3000~5000 字)中全部事实的核查。 我的需求场景其实不是拿来验证人类写的文章,而是拿来核查 AI 生成的文章。毕竟现在 AI 写稿子又快又好,但发布之前核查起来非常麻烦。 两个版本分别在 Google Opal 上和 Notion AI 里实现,功能一致但性能略有差别。 Google Opal 版完全免费,依托 Google 搜索,效果更强,但速度更慢。Notion AI 速度快一些,但效果没那么好。 Google Opal 版(你需要有 Google Lab 的访问资格):https://opal.google/?flow=drive:/1Zlo8AgpWBOktvU16s7f7tTqYN5LunVVJ&shared&mode=app Notion AI 版:https://www.notion.com/templates/facts-check-agent

10