一个有点意思的场景:
最近读一些PDF文档时,想把其中一段文字 copy 出来,我都会顺手用飞书的「提取文字」功能,扫描识别出来后再发到一个「信息备忘」的对话流里面。
扫描识别出来的文字贴到对话框后,飞书会自动识别出其中一些明显的 typo,用户只需要点一下就可以自动修正,准确率还蛮高的。
一个很自然的问题是:
既然飞书聊天框里能丝滑识别出这些 typo,为什么「提取文字」环节没有顺带完成这些 typo 的校正呢?
我猜,这里一个可能的视角,是通过引入【结构】来提升【效率】。一个示意的量化拆解如下:
如果「提取文字」在 OCR 的基础上再增加一个检查校正的环节,可能会带来80%的改进和20%的误判,实际上还是会有40%的错误留下。
这样准确率可以从94%(4/65)提升到97.6%,但需要牺牲一些性能。
写到这里,感觉自我说服显得很苍白。
可能真实情况里,没有那么多原因,纯粹就是产品经理没动脑子。