专利一种复杂结构化文档内容的校验方法、装置与设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210729398.7 (22)申请日 2022.06.24 (71)申请人国网安徽省电力有限公司亳州供电公司地址 236000 安徽省亳州市谯城区文帝街8 区商住1#楼 (72)发明人黄道友　罗沙　康健　方登洲　姚庭镜　宋东波　高博　秦金飞　秦少瑞　钟跃　蒋伟　项治国　于启万　周少波　汪伟伟　徐旭东　李志鹏　白天宇　金勇　靳继斌　何海涛　唐怀东　陈胜东　方隽杰　卢海亮　吕孝平　樊承鹏　章兵　郑飞翔　张杰　(74)专利代理机构南京泰普专利代理事务所 (普通合伙) 32360 专利代理师方晓雯 (51)Int.Cl. G06V 30/16(2022.01) G06V 30/19(2022.01) G06V 30/412(2022.01) G06V 30/413(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种复杂结构化文档内容的校验方法、装置与设备 (57)摘要本发明提出了一种复杂结构化文档内容的校验方法、装置与设备，其中方法包括以下步骤：步骤1、读取等待分析的目标文档的图像数据；步骤2、对获取到的图像数据进行预处理操作；步骤 3、对经过预处理后的图像数据进行形式分析，并按需标记；步骤4、构建印章检测模型，并对图像数据进行分析；步骤5、构建文本检测模型，进行文本分析；步骤6、提取目标文本框区域中的图像信息，并针对所需内容进行目标内容提取；步骤 7、对提取到的目标内容进行校验；步骤8、根据用户需求以及校验结果，输出用户所需的文本信息。本发明通过对复杂文档的检测识别，减少了文本交叠区域对识别结果的影响，同时附带内容校验和交互功能，提高文档校验的工作效率。权利要求书2页说明书10页附图5页 CN 114998905 A 2022.09.02 CN 114998905 A 1.一种复杂结构化文档内容的校验方法，其特征在于，该方法具体包括以下步骤：步骤1、读取等待分析的目标文档的图像数据，存储为第一图像数据；步骤2、对所述第一图像数据进行预处理操作，存储为第二图像数据；步骤3、对所述第二图像数据进行形式分析，并按需标记，输出为第三图像数据；步骤4、构建印章检测模型，将所述第三图像数据导入至所述印章检测模型进行数据分析，输出为第四图像数据；步骤5、构建文本检测模型，将所述第四图像数据导入至所述文本检测模型中进行数据分析，输出为第五图像数据；步骤6、构建文本识别模型，聚焦所述第五图像数据中目标文本框区域中的图像信息，按需提取目标内容；步骤7、对提取到的目标内容进行校验；步骤8、根据用户需求以及校验结果，输出用户所需的文本信息。 2.根据权利要求1所述的一种复杂结构化文档内容的校验方法，其特征在于，通过图像尺寸重置操作和图像锐化操作对第一图像数据进行预处理分析；所述图像锐化操作采用将原图像和拉普拉斯图像做差运算的方式，获得锐化图像。 3.根据权利要求1所述的一种复杂结构化文档内容的校验方法，其特征在于，分析第二图像数据的时候，采用直线检测捕捉单元格的方法，对图像数据中的表格进行识别分析，并对相应的识别结果进行序号位置标记。 4.根据权利要求1所述的一种复杂结构化文档内容的校验方法，其特征在于，采用构建的印章检测模型进行图像数据分析，通过生成的印章检测框对每个印章区域进行编号，同时生成印章个数和中心点关键数据，并用于为后续的文档分析提供依据；所述印章检测模型主干网路采用融合了深度可分离卷积、具有线性瓶颈的倒残差结构和squeez e and excitation注意力结构的轻量级注意力模型，同时采用Hard ‑Swish作为激活函数。 5.根据权利要求1所述的一种复杂结构化文档内容的校验方法，其特征在于，采用构建的文本检测模型进行图像数据分析，生成横排打印体文本框、手写体文本框、印章文本框，并标记对应的类别信息；随后，采用构建的文本识别模型进行图像数据分析，对生成的三种文本框内的内容进行识别，获得整体的文本内容；所述横排打印文本框中包含标题文本和内容文本；所述印章文本框中包含圆形分布文本框和线性排列分布文本框；所述文本检测模型针对分类的任务需求，在模型的输出端添加分类支路，使得文本检测模型用于实现对所有检测框的分类；所述文本检测模型输出端的分类支路由一层卷积 Conv和两层反卷积DeCo nv组成。 6.根据权利要求1所述的一种复杂结构化文档内容的校验方法，其特征在于，通过构建主题词库、确定各主题词区域信息，完成对提取到的目标内容进行校验；对文档内容校验的类别包括：按对象划分和按任务划分；按对象划分包括：表格文档内容校验和非表格内容校验；按任务划分包括：主题词内容校验和印章校验；首先构建主题词库用于为下文内容校验做铺垫；随后，根据需求检索题目信息，调用与之对应的主题词库，并匹配主题词库信息和文本检测结果，划分各主题词所属区域。权　利　要　求　书 1/2 页 2 CN 114998905 A 27.根据权利要求6所述的一种复杂结构化文档内容的校验方法，其特征在于，校验过程包括以下步骤：步骤7.1、构建主题词库；所述主题词库包括：主题词索引库和特定主题词库；所述主题词索引库用于横排打印体文本的区域定位和内容检验任务；所述特定主题词库用于手写体签名和公章的内容检验任务；步骤7.2、根据文本识别结果与位置数据，确定各主题词所属区域；步骤7.3、判断各主题词所属区域内是否有打印体或手写体文本内容；步骤7.4、基于表格的检测结果进行印章校验；对于表格文档校验，选定与印章相关的主题词所在的单元格，检验单元格内是否有印章，有则表示印章齐全，没有则表示需要添加印章；对于非表格文档校验，检验内容分两部分，一是检验印章数量与相关主题词数量是否一致，二是检验距离相关主题词预设范围内是否有印章。 8.根据权利要求6所述的一种复杂结构化文档内容的校验方法，其特征在于，对提取到的目标内容进行校还包括判定主题词内容和印章信息是否完整，当检测的结果为存在信息缺失情况时，则在交互界面显示缺少信息的主题词；主题词内容完整的检验，即判断各主题词所属区域内是否有除主题词外的其他内容；印章信息完整的检验，即判断公章是否完整。 9.一种复杂结构化文档内容的校验装置，用于实现权利要求1 ‑8任意一项方法，其特征在于，该装置具体包括以下单元：图像获取单元，用于获取待检测图像数据；检测识别单元，用于接收图像获取单元获取到的图像数据，并进行内容区域的检测，以及文字内容的识别；主题词库存储单元，用于存储不同文档模板的主题词库信息，支持增加、删除和修改的功能；区域确定单元，用于根据文档信息选择主题词库存储单元中对应的主题词库，再依据主题词库信息和检测识别结果，确定各主题词所属区域，同时附带内容校验功能，即确定所属区域内容是否完整；内容校验单元，用于根据区域选择单元输出结果，判断个主题词区域信息完整度；输入输出单元，包括输入单元和输出单元；所述输入单元用于输入所需的主题词；所述输出单元用于输出处理结果；其中输出的处理结果包括信息完整度以及主题词信息。 10.一种复杂结构化文档内容的校验设备，用于实现权利要求1 ‑8任意一项方法，其特征在于，该设备具体包括：处理器，用于执行相关程序，当程序执行时，可实现文档信息检测识别和检验功能；存储器，用于存储相关程序和数据；输入设备，用于文档图或视频数据的输入和交互界面的指令输入；输出设备，用于交互界面内容完整度和特定信息的输出。权　利　要　求　书 2/2 页 3 CN 114998905 A 3

专利 一种复杂结构化文档内容的校验方法、装置与设备

专利一种复杂结构化文档内容的校验方法、装置与设备