即刻App年轻人的同好社区
下载
App内打开
开源星探
1年前
一个最新开源的PDF文档解析工具:olmOCR。

它通过 Qwen2-VL-7B-Instruct 进行训练,专门针对 PDF 和文档图像 提取 干净、结构化的纯文本,并以 Markdown 格式输出,极大地提升了文本解析的 精准度、可读性和可用性。

它特别擅长处理复杂布局,如表格、方程式和手写内容,适合需要高精度文本提取的场景。

处理 100 万页 PDF 的成本约为 190 美元,相比使用 GPT-4o API 的批处理模式,成本仅为其 1/32。

其与 Marker、MinerU、GOT-OCR 2.0 等主流 PDF 解析工具的对比,效果显著。

GitHub:github.com/allenai/olmocr
05

来自圈子

圈子图片

AI探索站

109630人已经加入