人工智能OCR关键信息抽取模型

发布时间: 2022-11-17

来源: 试点城市（园区）

截止日期:2023-11-30

价格双方协商

地区：辽宁省沈阳市铁西区

需求方：沈阳***公司

行业领域

电子信息技术,软件

需求背景

人工智能OCR关键信息抽取在文档场景中被广泛使用，如身份证中的姓名、住址信息抽取，快递单中的姓名、联系方式等关键字段内容的抽取。传统基于模板匹配的方案需要针对不同的场景制定模板并进行适配，较为繁琐。

需解决的主要技术难题

以常见的增值税发票为例，需以多模态关键信息抽取模型为基础，针对增值税发票场景进行适配，提取该场景的关键信息。

基于文档图像的关键信息抽取包含3个部分：

（1）文本检测

（2）文本识别

（3）关键信息抽取方法，包括语义实体识别或者关系抽取。

难点在于第（3）部分的语义实体识别（Semantic Entity Recognition），通俗的讲语义实体识别指的是给定一段文本行，确定其类别（如姓名、住址等类别）。

期望实现的主要技术目标

需要标注出其中的关键字段，我们将其标注为问题-答案的key-value pair，如编号No为12270830，则No字段标注为question，12270830字段标注为answer。

如果文本检测模型数据标注过程中，没有标注非关键信息内容的检测框，那么在标注关键信息抽取任务的时候，也不需要标注该部分；如果标注的过程，如果同时标注了非关键信息内容的检测框，那么需要将该部分的label记为other。

标注过程中，需要以文本行为单位进行标注，无需标注单个字符的位置信息。

模型训练过程中，需使用知识蒸馏的策略，并保留学生模型的参数。

处理进度

科创中国