新开个小系列,讲讲怎么衡量rag所需要的文档解析的效果。
大家做rag的时候,遇到文档或pdf解析,第一反应,要么是找找ocr方案,要么是找pdf解析方案。把一些开源的东西拿过来一试,结果发现效果总是不理想。
为什么呢?
因为产品设计就是不对口的呀。
比如传统的ocr,在处理表格时,一般都是输出每个单元格的坐标框和对应单元格的值。
可LLM问答的时候,需要的通常只是表格的内容。并且,越干净的内容,输出的答案的质量越高。所以这里最好就是用类似逗号分隔符,或者markdown格式来表示表格。
除了表格,同样专业不对口的,还有标题,文本段落,单样双栏等等还原。
于是乎,以前评估ocr效果的那套机制,在rag的场景中,已经不再适应了。
也因此,作为文档处理和文档识别的专业团队,textin将自己的测评方式分享给大家
github.com。
这套测评指标里,分了5个维度,针对表格,段落,标题,阅读顺序,公式等进行定量的测评。从而帮助开发者们更科学地评估,包括横向在不同厂商间对比,以及纵向在同一厂商的新旧版本上对比。
下一篇展开聊聊表格的相关指标。
最后,也欢迎相关开发者给我们提需求,包括但不限于对这个tester本身的优化,或者提供样本找我们对比测试,甚至是指定厂家做对比测试😁