最近收到最有底气的反馈是商务带来的,他说:客户追着要买我们TextIn的文档解析,因为他们要从PDF或图片中清洗出表格类的数据,但以前的方法实在是太痛苦了。
像这样产品力得到一次又一次的认可,以及真金白银的买单,才能良性发展下去。
我们也确实花了相当多的精力在表格识别和解析方面,解决了一系列的难题,包括:
- 识别年报中的各种无线表格,几乎是最受客户喜欢的功能之一
- 识别研报的表格页,经典的就是在一页里放了资产负债表和利润表的那种
- 识别体检报告和产品说明书中的表格,主要是一个格子里还有好几行的,不加处理容易混在一起
- 长文档中的跨页表格合并
- 一个单元格里英文或数字的换行问题,这也是特别容易出错的地方,要知道,数字换行出了错,两个数拼在一起,意义就全变了
为什么很多客户在试过了一圈开源产品之后,兜兜转转还是来找我们呢?无非是这些疑难case处理得不好罢了。
而TextIn能做好,也只是因为真的舍得投入。
我们最近在做重构表格模型的时候,甚至让两组团队同时进行,用赛马的方式挑出效果最好的方案。试想一下,有多少公司会在表格解析这个细分方向,养两个团队做比拼呢?但为了保障客户体验,我们仍然选择投大量资源。
对于表格数据清洗入库,或者要从非结构化文档中提取结构化信息,以及单纯关心文档中表格识别效果的朋友,都可以试试TextIn ParseX文档解析。