大模型洗数据之 OCR
如果没有在光年洗数据的经历,我是不会很快想到 OCR 会成为大模型的一个重要基础设施(以及瓶颈)的。中文电子书,绝大部分是扫描版的(这个和 libgen, zlib 里大多英文电子书是文字版还不一样,以后展开),没有 OCR 就没法提取书籍里的信息。
没想到的是,市面上不管是收费还是免费,闭源还是开源的 OCR,即使名气很大,几乎都搞不定书籍(如果你也觉得很反直觉,可以看看附图)。
在所有的测试中,比较意外的是,有一家几百人的“中厂”的效果力挫各互联网大厂,效果最好。
最近看新闻,它已经 IPO 过审,准备上市了。认真做被互联网巨头看不上的活这么多年,赶上大模型淘金热,起飞。
真是“星光不问赶路人,时光不负有心人”。