分享一个题目识别和还原的提示词。
先说说背景:
我们有一些客户拿着题目试卷的PDF,调用TextIn ParseX之后,经常会发现一些填空题里的划线空格没识别出来。大概长这样:“蕨类植物植株比苔藓植物_,具有 、 、 的分化,体内具有专门运输物质的 。”
可以看到,上面题目中,“具有”后面缺少了3个下划线。但除非是专门做试卷场景的,否则常规的OCR应该都没在这里做过专项优化。
不过有了LLM之后,简单加个后处理就能做好,毕竟文字和分句符号是对的,并且这种基础NLP任务,也适合让大模型来做。
提示词贴出来如下:
### 背景与要求
请提供以下题目,每个空格用下划线(__)表示,去掉答案部分。题目格式应保留原样,且每个空格不带任何答案,仅为下划线。
### 示例
输入:“蕨类植物植株比苔藓植物_,具有 、 、 的分化,体内具有专门运输物质的 。”
输出:“蕨类植物植株比苔藓植物__,具有__、__、__的分化,体内具有专门运输物质的__。”
### 待处理题目
*******
总之,只要用的OCR服务或者文档解析服务,没有专门做过填空题的优化,都可以用这个样式的提示词来做后处理,效果杠杠的。