即刻App年轻人的同好社区
下载
App内打开
刘勿锋
1年前
做LLM的文档RAG应用的时候,面对长文档的切片问题,行业越来越有一种共识,那就是:

如果有标题,最好是利用标题和段落的语义信息做分片,这样语义完整性更高,有利于后面的召回;

但如果文档里没有标题,或者标题识别得不好,那就得还是按固定长度切分,或者拆成每页一个chunk。

正因如此,行业对文档RAG系统的第一步,也就是文档解析,提出了准确解析文档标题的需求。

目前,市面上能把标题处理得很好的PDF解析工具,并不多。

最粗暴的做法,是把所有标题都统一处理成一级或二级标题;

效果更好,但也更难的做法,是尝试如实还原为一级标题、二级标题、三级标题。

我们TextIn选择的就是后一种。

因为从第一性原理上讲,输出信息的语义信息越丰富,越贴近原始文档,就越有利于后续的问答任务。

所以,即使我们当下效果离完美还有距离,但仍然坚定选择投入研发,尽力去攻克这个问题,从而为开发者们提供更好的检索召回效果。

想要从PDF中提取标题,从而提升RAG系统性能的开发者,也欢迎体验我们的产品~

链接:www.textin.com
1516

来自圈子

圈子图片

人工智能讨论组

472559人已经加入