现在是否有这类rag: 先通过topic聚类得到不同得分块

微软发的graphrag，用了知识图谱的思路，就有聚类的逻辑在里面

昨天对比了一下 textin 和 阿里的文档解析（大模型版），由于我使用的pdf本身有水印，导致用textin解析出来的部分内容包含了水印的文字，阿里没有，比如 姓名：张三，  水印（例如：水印）正好再 张三的位置，所以，textin解析后的姓名是：张三水，阿里正常，就是张三。  另外想问下，解析出来的json，是否是可以直接用于向量化，不用再切片一次了吧

文档去水印这个能力，后面我们会看看怎么加上。然后解析出来的json是基于段落组织的，如果您这边文档切片也是基于段落的话，就可以直接用了

pdf解析成markdown之后经常因为chunk会把pdf里边的大段代码和表格腰斩而导致效果变差一直在找解决方案o.o

我们内部的尝试就是基于语义来分chunk，表格会单独处理

我比较感兴趣的是，最佳实践是以什么样的颗粒度去切片，是以章节，以段落，以句子，还是以词语？

我们实践下来，如果标题识别准，那基于章节和段落会比较好；其他情况下，用段落或者用固定长度都差距不太大。但这个也跟用到的召回策略有关系，多路召回会相对稳定一些

所以就是做embedding然后进行语意级别的chunking么

做LLM的文档RAG应用的时候，面对长文档的切片问题，行业越来越有一种共识，那就是：

如果有标题，最好是利用标题和段落的语义信息做分片，这样语义完整性更高，有利于后面的召回；

但如果文档里没有标题，或者标题识别得不好，那就得还是按固定长度切分，或者拆成每页一个chunk。

正因如此，行业对文档RAG系统的第一步，也就是文档解析，提出了准确解析文档标题的需求。

目前，市面上能把标题处理得很好的PDF解析工具，并不多。

最粗暴的做法，是把所有标题都统一处理成一级或二级标题；

效果更好，但也更难的做法，是尝试如实还原为一级标题、二级标题、三级标题。

我们TextIn选择的就是后一种。

因为从第一性原理上讲，输出信息的语义信息越丰富，越贴近原始文档，就越有利于后续的问答任务。

所以，即使我们当下效果离完美还有距离，但仍然坚定选择投入研发，尽力去攻克这个问题，从而为开发者们提供更好的检索召回效果。

想要从PDF中提取标题，从而提升RAG系统性能的开发者，也欢迎体验我们的产品～

链接：https://www.textin.com/console/recognition/robot_struct?service=pdf_to_markdown

🐬AI产品 | TextIn产品负责人  🐠现实世界观察员  ✨分享AI、产品、商业、职场、经营的一手经验  VX: Tristone_L

47万名技术爱好者在研究人工智能or“智障”

名技术爱好者在研究人工智能or“智障”

来自圈子

人工智能讨论组