全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210729398.7 (22)申请日 2022.06.24 (71)申请人 国网安徽省电力有限公司亳州供电 公司 地址 236000 安徽省亳州市谯城区文帝街8 区商住1#楼 (72)发明人 黄道友 罗沙 康健 方登洲  姚庭镜 宋东波 高博 秦金飞  秦少瑞 钟跃 蒋伟 项治国  于启万 周少波 汪伟伟 徐旭东  李志鹏 白天宇 金勇 靳继斌  何海涛 唐怀东 陈胜东 方隽杰  卢海亮 吕孝平 樊承鹏 章兵  郑飞翔 张杰 (74)专利代理 机构 南京泰普专利代理事务所 (普通合伙) 32360 专利代理师 方晓雯 (51)Int.Cl. G06V 30/16(2022.01) G06V 30/19(2022.01) G06V 30/412(2022.01) G06V 30/413(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种复杂结构化文档内容的校验 方法、 装置 与设备 (57)摘要 本发明提出了一种复杂结构化文档内容的 校验方法、 装置与设备, 其中方法包括以下步骤: 步骤1、 读取等待分析的目标文档的图像数据; 步 骤2、 对获取到的 图像数据进行预处理操作; 步骤 3、 对经过预处理后的图像数据进行形式分析, 并 按需标记; 步骤4、 构建印章检测模型, 并对 图像 数据进行分析; 步骤5、 构建文本检测模型, 进行 文本分析; 步骤6、 提取目标文本框区域中的图像 信息, 并针对所需内容进行目标内容提取; 步骤 7、 对提取到的目标内容进行校验; 步骤8、 根据用 户需求以及校验结果, 输出用户所需的文本信 息。 本发明通过对复杂文档的检测识别, 减少了 文本交叠区域对识别结果的影 响, 同时附带内容 校验和交 互功能, 提高文档校验的工作效率。 权利要求书2页 说明书10页 附图5页 CN 114998905 A 2022.09.02 CN 114998905 A 1.一种复杂结构化文档内容的校验方法, 其特 征在于, 该 方法具体包括以下步骤: 步骤1、 读取等待分析的目标文档的图像数据, 存 储为第一图像数据; 步骤2、 对所述第一图像数据进行 预处理操作, 存 储为第二图像数据; 步骤3、 对所述第二图像数据进行 形式分析, 并按需标记, 输出为第三图像数据; 步骤4、 构建印章检测模型, 将所述第三图像数据导入至所述印章检测模型进行数据分 析, 输出为第四图像数据; 步骤5、 构建文本检测模型, 将所述第四图像数据导入至所述文本检测模型中进行数据 分析, 输出为第五图像数据; 步骤6、 构建文本识别模型, 聚焦所述第五图像数据中目标文本框区域中的图像信息, 按需提取目标内容; 步骤7、 对提取到的目标内容进行 校验; 步骤8、 根据用户需求以及校验结果, 输出用户所需的文本信息 。 2.根据权利要求1所述的一种复杂结构化文档内容的校验方法, 其特征在于, 通过图像 尺寸重置操作和图像锐化操作对第一图像数据进行 预处理分析; 所述图像锐化操作采用将原图像和拉普拉斯图像做差运 算的方式, 获得锐化图像。 3.根据权利要求1所述的一种复杂结构化文档内容的校验方法, 其特征在于, 分析第 二 图像数据的时候, 采用直线检测捕捉单元格的方法, 对图像数据中的表格进行识别分析, 并 对相应的识别结果进行序号 位置标记。 4.根据权利要求1所述的一种复杂结构化文档内容的校验方法, 其特征在于, 采用构建 的印章检测模型进行图像数据分析, 通过生成的印章检测框对每个印章区域进行编号, 同 时生成印章个数和中心点关键数据, 并用于为后续的文档分析提供依据; 所述印章检测模型主干网路采用融合了深度 可分离卷积、 具有线性瓶颈的倒残差结构 和squeez e and excitation注意力结构的轻量级注意力模型, 同时采用Hard ‑Swish作为激 活函数。 5.根据权利要求1所述的一种复杂结构化文档内容的校验方法, 其特征在于, 采用构建 的文本检测模型进行图像数据分析, 生成横排打印体文本框、 手写体文本框、 印章文本框, 并标记对应的类别信息; 随后, 采用构建的文本识别模型进 行图像数据分析, 对生成的三种 文本框内的内容进行识别, 获得整体的文本内容; 所述横排打印文本 框中包含标题文本和内容文本; 所述印章文本 框中包含圆形分布文本 框和线性 排列分布文本 框; 所述文本检测模型针对分类的任务需求, 在模型的输出端添加分类支路, 使得文本检 测模型用于实现对所有检测框的分类; 所述文本检测模型输出端的分类支路由一层卷积 Conv和两层反卷积DeCo nv组成。 6.根据权利要求1所述的一种复杂结构化文档内容的校验方法, 其特征在于, 通过构建 主题词库、 确定各主题词区域信息, 完成对提取到的目标内容进行 校验; 对文档内容校验的类别 包括: 按对象划分和按任务划分; 按对象划分包括: 表格文档内 容校验和非表格内容校验; 按任务划分包括: 主题词内容校验和印章校验; 首先构建主题词库用于为下文内容校验做铺垫; 随后, 根据需求检索题目信息, 调用与 之对应的主题词库, 并匹配主题词库信息和文本检测结果, 划分各主题词所属区域。权 利 要 求 书 1/2 页 2 CN 114998905 A 27.根据权利要求6所述的一种复杂结构化文档内容的校验方法, 其特征在于, 校验过程 包括以下步骤: 步骤7.1、 构建主题词库; 所述主题词库包括: 主题词索引库和特定主题词库; 所述主题词索引库用于横排打印体文本的区域定位和内容检验 任务; 所述特定主题词库用于手写体 签名和公章的内容检验 任务; 步骤7.2、 根据文本识别结果与位置数据, 确定各主题词所属区域; 步骤7.3、 判断各主题词所属区域内是否有打印体或手写体文本内容; 步骤7.4、 基于表格的检测结果进行印章校验; 对于表格文档校验, 选定与印章相关的主题词所在的单元格, 检验单元格内是否有印 章, 有则表示印章齐全, 没有则表示需要添加印章; 对于非表格文档校验, 检验内容分两部分, 一是检验印章数量与相关主题词数量是否 一致, 二是检验距离相关主题词预设范围内是否有印章。 8.根据权利要求6所述的一种复杂结构化文档内容的校验方法, 其特征在于, 对提取到 的目标内容进 行校还包括判定主题词内容和印章信息是否完整, 当检测的结果为存在信息 缺失情况时, 则在交 互界面显示 缺少信息的主题词; 主题词内容完整的检验, 即判断各主题词所属区域内是否有 除主题词外的其他内容; 印章信息 完整的检验, 即判断公章是否 完整。 9.一种复杂结构化文档内容的校验装置, 用于实现权利要求1 ‑8任意一项方法, 其特征 在于, 该装置具体包括以下 单元: 图像获取 单元, 用于获取待检测图像数据; 检测识别单元, 用于接收图像获取单元获取到的图像数据, 并进行内容区域的检测, 以 及文字内容的识别; 主题词库存储单元, 用于存储不同文档模板的主题词库信 息, 支持增加、 删除和修改的 功能; 区域确定单元, 用于根据文档信息选择主题词库存储单元中对应的主题词库, 再依据 主题词库信息和检测识别结果, 确定各主题词所属区域, 同时附带内容校验功能, 即确定所 属区域内容是否 完整; 内容校验单 元, 用于根据区域选择 单元输出结果, 判断个主题词区域信息 完整度; 输入输出 单元, 包括输入单 元和输出 单元; 所述输入单 元用于输入所需的主题词; 所述输出单元用于输出处理结果; 其中输出的处理结果包括信 息完整度以及主题词信 息。 10.一种复杂结构化文档内容的校验设备, 用于实现权利要求1 ‑8任意一项方法, 其特 征在于, 该设备 具体包括: 处理器, 用于执 行相关程序, 当程序执 行时, 可实现文档 信息检测识别和检验功能; 存储器, 用于存 储相关程序和数据; 输入设备, 用于文档图或视频 数据的输入和交 互界面的指令 输入; 输出设备, 用于交 互界面内容完整度和特定信息的输出。权 利 要 求 书 2/2 页 3 CN 114998905 A 3

PDF文档 专利 一种复杂结构化文档内容的校验方法、装置与设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种复杂结构化文档内容的校验方法、装置与设备 第 1 页 专利 一种复杂结构化文档内容的校验方法、装置与设备 第 2 页 专利 一种复杂结构化文档内容的校验方法、装置与设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。