不是的，你可以比一下，手写的字都能识别，肯定优化了

我前几天还在想呢，想办法把影印的PDF变成电子版，可惜书太厚1000多页最后作罢。全能王一次只让传5张图……希望以后能有更好的吧。

用adobe acrobat，多少页的书都能ocr，就是质量一般

下载App一次貌似能扫很多张，不知道你用的是小程序还是网页啥的

ocr识别错误很影响模型效果，呜和鸣分不清，输出就很离谱

大模型洗数据之 OCR
如果没有在光年洗数据的经历，我是不会很快想到 OCR 会成为大模型的一个重要基础设施(以及瓶颈)的。中文电子书，绝大部分是扫描版的(这个和 libgen, zlib 里大多英文电子书是文字版还不一样，以后展开)，没有 OCR 就没法提取书籍里的信息。

没想到的是，市面上不管是收费还是免费，闭源还是开源的 OCR，即使名气很大，几乎都搞不定书籍(如果你也觉得很反直觉，可以看看附图)。

在所有的测试中，比较意外的是，有一家几百人的“中厂”的效果力挫各互联网大厂，效果最好。
最近看新闻，它已经 IPO 过审，准备上市了。认真做被互联网巨头看不上的活这么多年，赶上大模型淘金热，起飞。

真是“星光不问赶路人，时光不负有心人”。

不知道说什么好，我给你表演个劈叉吧。  __😖__

43万名工程师在这里吐槽和自嘲

来自圈子

工程师的日常