即刻App年轻人的同好社区
下载
App内打开
鲸游
4月前
前段时间发现谷歌开源了一个挺厉害的Python库LangExtract,简单说就是专门用来从各种杂乱无章的信息里,把你想要的结构化数据给"挖"出来。

说起这个,想起之前做项目时的一段血泪史。

那会儿我们要处理几百份用户上传的合同,听起来很简单吧?

就是把合同里的关键信息,比如谁和谁签的、地址在哪、联系方式、金额多少,这些东西提取出来,然后录入系统。

看似简单,实际做起来真的让人头大。

那些PDF、Word文档、图片里的内容完全没有规律可言,要把这些乱七八糟的文本转换成数据库里整整齐齐的数据,真的太难了。

当时我们试了各种办法:找外包公司人工录入(成本太高)、写正则表达式做匹配(稍微格式一变就完蛋)、考察第三方的合同识别服务(价格贵得离谱)。

整个过程简直是在各种坑里反复跳,因为合同格式千变万化,一个小小的表述差异就能让精心设计的规则彻底失效。

现在看到LangExtract,我的第一反应就是:这不就是我们当年做梦都想要的神器吗?

它最牛的地方在于解决了两个让人特别头疼的问题:

第一个是"找得准"

LangExtract提取出来的每个信息,都能准确告诉你它在原文的确切位置。比如它说合同甲方是"某某公司",同时会标出这四个字在原文档第几页第几段的具体位置。这对需要人工复核的场景简直太友好了——审核员不用再像大海捞针一样翻找,直接就能验证信息的准确性。

第二个是"不瞎编"

用过大模型的朋友应该都知道,有时候让它总结内容,它会自己"脑补"一些原文没有的东西。写小说的时候这叫创意,但做数据提取的时候这就是灾难。

LangExtract通过让你自定义提取模板和提供示例,给AI套上了"紧箍咒",确保它严格按照你的要求输出,不会随意发挥。

对于我们这些要解决实际业务问题的人来说,这意味着什么?

意味着你可以用很低的成本,快速搭建一套"文档数字化处理系统"。以前需要一个团队折腾好几个月的活儿,现在可能一个开发者花几天时间,调用LangExtract就能做出一个可用的版本。

这种效率提升,真的是质的飞跃。
736

来自圈子

圈子图片

产品经理的日常

203029人已经加入