之前发了一个PDF文档解析的测评工具,
mp.weixin.qq.com然后评论区就有人说:你们好歹搞个公开的数据集实际测一把啊,光嘴上说算什么本事。
这个建议非常好,毕竟是骡子是马,总得拉出来溜溜。
于是我在huggingface上找了一个ocr-markdown的数据集,总共有2000多样本,地址见:
huggingface.co接下来,准备搞一个横评。
目前已经接通api的产品有:gpt4o, mathpix, textin。顺利的话,这周就会有结果。
大家还有想了解的产品吗?只要有api调用方式,我们都可以自掏腰包,帮大家测一把出来。
或者,有想看某个数据集,甚至是某个行业的对比结果的,也都可以留言。