即刻App年轻人的同好社区
下载
App内打开
Simon的白日梦
1年前
将PDF完美转换为markdown格式🥹

GitHub - CosmosShadow/gptpdf: Using GPT to parse PDF
🧐gptpdf使用VLLM(如GPT-4o)解析PDF文件,将其转换为Markdown格式,能完美解析排版、数学公式、表格、图片和图表等内容。
➡️链接: github.com
✨重点
●📄 PDF解析:gptpdf利用PyMuPDF库解析PDF文件,标记所有非文本区域,并使用大型视觉模型(如GPT-4o)将其转换为Markdown文件。
●💰 成本效益:平均每页解析成本约为0.013美元,提供高性价比的PDF解析解决方案。
●🚀 快速处理:最新版本引入了gpt_worker以加速解析速度,允许根据机器性能调整并行解析任务数。
●🔧 易于使用:安装简单,只需几行代码即可使用,支持从PDF文件生成Markdown内容并提取所有图片路径。
详细内容
主要功能
高精度解析:gptpdf能够精确解析PDF中的排版、数学公式、表格、图片和图表,将其转换为易于编辑和分享的Markdown格式。
简单集成:只需提供OpenAI API密钥和PDF文件路径,即可轻松调用gptpdf进行解析,返回Markdown内容和图片路径。
223

来自圈子

圈子图片

人工智能讨论组

472540人已经加入