做LLM的文档RAG应用的时候,面对长文档的切片问题,行业越来越有一种共识,那就是:
如果有标题,最好是利用标题和段落的语义信息做分片,这样语义完整性更高,有利于后面的召回;
但如果文档里没有标题,或者标题识别得不好,那就得还是按固定长度切分,或者拆成每页一个chunk。
正因如此,行业对文档RAG系统的第一步,也就是文档解析,提出了准确解析文档标题的需求。
目前,市面上能把标题处理得很好的PDF解析工具,并不多。
最粗暴的做法,是把所有标题都统一处理成一级或二级标题;
效果更好,但也更难的做法,是尝试如实还原为一级标题、二级标题、三级标题。
我们TextIn选择的就是后一种。
因为从第一性原理上讲,输出信息的语义信息越丰富,越贴近原始文档,就越有利于后续的问答任务。
所以,即使我们当下效果离完美还有距离,但仍然坚定选择投入研发,尽力去攻克这个问题,从而为开发者们提供更好的检索召回效果。
想要从PDF中提取标题,从而提升RAG系统性能的开发者,也欢迎体验我们的产品~
链接:
www.textin.com