一个最新开源的PDF文档解析工具：olmOCR。

它通过 Qwen2-VL-7B-Instruct 进行训练，专门针对 PDF 和文档图像 提取 干净、结构化的纯文本，并以 Markdown 格式输出，极大地提升了文本解析的 精准度、可读性和可用性。

它特别擅长处理复杂布局，如表格、方程式和手写内容，适合需要高精度文本提取的场景。

处理 100 万页 PDF 的成本约为 190 美元，相比使用 GPT-4o API 的批处理模式，成本仅为其 1/32。

其与 Marker、MinerU、GOT-OCR 2.0 等主流 PDF 解析工具的对比，效果显著。

GitHub：github.com/allenai/olmocr

来自圈子

AI探索站