全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210221314.9 (22)申请日 2022.03.09 (65)同一申请的已公布的文献号 申请公布号 CN 114332884 A (43)申请公布日 2022.04.12 (73)专利权人 腾讯科技 (深圳) 有限公司 地址 518044 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 徐士戈 胡益清 吴云飞 刘兵  姜德强  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 王宁宁 (51)Int.Cl. G06V 30/40(2022.01)G06V 30/148(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (56)对比文件 US 2007133842 A1,20 07.06.14 审查员 邢丽超 (54)发明名称 文档元素的识别方法、 装置、 设备及存储介 质 (57)摘要 本申请涉及计算机领域, 特别涉及人工智能 领域, 提供了一种文档元素的识别方法、 装置、 设 备及存储介质, 本申请实施例可应用于云技术、 人工智能、 智慧交通、 辅助 驾驶等各种场景中。 该 方法包括: 通过在相应的文档图像模板的元素显 示区域填充新的元素数据, 得到大量类似真实文 档图像, 解决了模型泛化性差的问题。 在每轮训 练中, 基于训练样本集合, 使用具有相同文档内 容, 且具有不同图像尺寸的两个文档图像进行多 尺度预测, 将小尺度的广视野优势与大尺度的边 界定位优势相结合, 获得第一文档图像的预测识 别结果, 再使用预测识别结果与相应的处理后的 标注结果调整模 型参数, 解决了边界识别不精准 的问题, 提高了模型的文档元 素识别准确率。 权利要求书3页 说明书15页 附图17页 CN 114332884 B 2022.06.21 CN 114332884 B 1.一种文档元 素的识别方法, 其特 征在于, 包括: 获取包含了真实文档图像与类似真实文档图像的训练样本集合, 其中, 每个类似真实 文档图像, 是在相应的文档图像模板的元 素显示区域, 填充新的元 素数据得到的; 基于所述训练样本集合, 以循环迭代方式进行模型训练, 输出训练完毕的文档元素识 别模型, 其中, 一轮训练过程如下: 基于所述训练样本集合, 获得具有相同文档内容, 且具有不同图像尺寸的第一文档图 像和第二文档图像; 分别对所述第一文档图像和所述第二文档图像进行编解码处理, 获得各候选识别结 果, 其中, 通过对所述第一文档图像进行编码处理, 获得底层图像特征与高层图像特征, 所 述底层图像特征是通过深度残差网络的前n个残差块, 对所述第一文档图像进行第一编码 处理获得的, 所述高层图像特征是通过空间金字塔池化网络, 对中间层图像特征进行第二 编码处理获得的, 所述第二编码处理包括多尺度空间卷积、 池化融合与通道卷积; 通过对融 合的底层图像特征与所述高层图像特征进行解码处理, 获得编解码图像特征, 并基于获得 的编解码图像特征, 分别确定所述第一文档图像上各文档元素的元素显示区域及元素类 别, 获得相应的候选识别结果; 基于获得的各候选识别结果, 分别确定所述第 一文档图像上各文档元素的元素显示 区 域及元素类别, 获得相应的预测识别结果; 基于所述预测 识别结果及相应的处理后的标注结果, 调整所述文档元素识别模型的模 型参数; 其中, 所述处理后的标注结果是通过执行以下操作获得的: 使用结构元遍历所述第一 文档图像上的各像素点, 以获得所述第一文档图像中缩减后的各所述元素显示区域; 其中, 每遍历一个像素点, 将所述结构元覆盖区域中的最小像素值, 作为当前遍历的所述一个像 素点的新像素值。 2.如权利要求1所述的识别方法, 其特征在于, 通过执行以下操作, 获得一个类似真实 文档图像: 获取一个文档图像模板; 按照规定的模板排列逻辑, 将获得的各新的元素数据, 填充到所述一个文档图像模板 的各元素显示区域; 将已填充元 素数据的文档图像模板, 确定为所述 一个类似真实文档图像。 3.如权利要求2所述的识别方法, 其特征在于, 所述一个文档图像模板的各元素显示 区 域包括图片区域、 表格区域、 文本区域和分割线区域; 在按照规定的模板排列逻辑, 将获得的各新的元素数据, 填充到所述一个文档图像模 板的各元素显示区域之前, 还 包括: 当所述图片区域与 所述表格区域间的数量比例不满足设定阈值 时, 将部分图片区域转 换为所述表格区域, 或将部分表格区域转换为所述图片区域, 以使调整后的所述图片区域 与所述表格区域间的数量比例满足设定阈值。 4.如权利要求3所述的识别方法, 其特征在于, 所述按照规定的模板排列逻辑, 将获得 的各新的元 素数据, 填充到所述 一个文档图像模板的各 元素显示区域, 包括: 按照各所述图片区域的高宽比, 调整符合图片尺寸要求的各图片的高宽比, 并将调整权 利 要 求 书 1/3 页 2 CN 114332884 B 2后的各所述图片, 填充到相应的图片区域中; 以及, 按照各所述表格区域的高宽比, 调整符合表格尺寸要求的各表格的高宽比, 并将调整 后的各所述表格, 填充到相应的表格区域中; 以及, 调整各文本的字体、 字号与粗细中的至少一种, 并将调 整后的各所述文本, 填充到相应 的文本区域中; 以及, 调整各分割线的线条长度与线条宽度, 并将调整后的各所述分割线, 填充到相应的分 割线区域中。 5.如权利要求3所述的识别方法, 其特征在于, 所述按照各所述图片区域的高宽比, 调 整与各所述图片区域的高宽比接 近的图片的高宽比, 包括: 按照各所述图片区域的高宽比, 对与各所述图片区域的高宽比接近的图片进行随机缩 放、 随机拉伸中的至少一种, 以使各 所述图片的高宽比不超过相应的图片区域的高宽比。 6.如权利要求3所述的识别方法, 其特征在于, 所述分割线区域的位置为以下至少一 种: 位于所述 一个文档图像模板的上 方区域; 位于所述 一个文档图像模板的下 方区域; 位于所述 一个文档图像模板的左侧区域; 位于所述 一个文档图像模板的右侧区域; 位于图注或表 注的上方区域; 位于图注或表 注的下方区域。 7.如权利要求1所述的识别方法, 其特征在于, 所述通过对所述第 一文档图像进行编码 处理, 获得底层图像特 征与高层图像特 征, 包括: 使用深度残差网络对所述第 一文档图像进行第 一编码处理, 获得所述底层图像特征与 所述中间层图像特征, 其中, 所述中间层图像特征是通过所述深度残差网络的后n个残差 块, 对前一个残差块输出的图像特 征进行第一编码处 理获得的; 分别使用不同空洞率的卷积核, 对所述中间层图像特征进行第二编码处理, 获得多个 尺度的空洞图像特 征, 并基于拼接的空洞图像特 征集合, 获得所述高层图像特 征。 8.一种文档元 素的识别装置, 其特 征在于, 包括: 样本获取单元, 用于获取包含了真实文档图像与类似真实文档图像的训练样本集合, 其中, 每个类似真实文档图像, 是在相应的文档图像模板的元素显示区域, 填充新的元素数 据得到的; 基于所述训练样本集合, 以循环迭代方式进行模型训练, 输出训练完毕的文档元素识 别模型, 其中, 一轮训练过程如下: 处理单元, 用于基于所述训练样本集合, 获得具有相同文档内容, 且具有不同图像尺寸 的第一文档图像和第二文档图像; 分别对所述第一文档图像和所述第二文档图像进行编解码处理, 获得各候选识别结 果, 其中, 通过对所述第一文档图像进行编码处理, 获得底层图像特征与高层图像特征, 所 述底层图像特征是通过深度残差网络的前n个残差块, 对所述第一文档图像进行第一编码 处理获得的, 所述高层图像特征是通过空间金字塔池化网络, 对中间层图像特征进行第二 编码处理获得的, 所述第二编码处理包括多尺度空间卷积、 池化融合与通道卷积; 通过对融权 利 要 求 书 2/3 页 3 CN 114332884 B 3

.PDF文档 专利 文档元素的识别方法、装置、设备及存储介质

文档预览
中文文档 36 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档元素的识别方法、装置、设备及存储介质 第 1 页 专利 文档元素的识别方法、装置、设备及存储介质 第 2 页 专利 文档元素的识别方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。