即刻App年轻人的同好社区
下载
App内打开
刘勿锋
10天前
做文档RAG的朋友可能都会遇到一个问题,那就是怎么把非结构化文档中的信息提取出来,从而更好地给到LLM使用。

比如用户上传的文件是PDF时,往往要用到一些PDF解析工具。市面上有开源的,有闭源的。

一大堆可选项,怎么挑呢?

大部分人会选择感性地测试,或者看大v推荐。但有没有一种更加量化的方式,能直观对比出各家的效果差异呢?

毕竟,每种解析工具也在不断更新,总不能每次他们一更新,或者每出一种新工具,就人肉重新仔细看一遍吧。那也太累了。

为了解决这个问题,我们开发了一套测试工具,输出是图里的样子。从表格准确率,段落准确率,公式准确率,阅读顺序等指标,客观评测每一家的效果。

输入也很简单,把每家输出的markdown放到文件夹里即可。

这个工具预计本周晚点放出来,希望能给挑选解析工具挑花眼的朋友一些帮助😁
197

来自圈子

圈子图片

AI探索站

70369人已经加入