全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210106981.2 (22)申请日 2022.01.28 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 刘皓 李鑫  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 贾允 (51)Int.Cl. G06V 30/414(2022.01) G06V 30/18(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 表格结构识别方法、 装置、 设备及存 储介质 (57)摘要 本申请公开了一种表格结构识别方法、 装 置、 设备及存储介质, 可以应用于云技术、 人工智 能、 智慧交通、 车联网等各种场景, 所述方法包 括: 将表格图像划分成至少两个文本框; 对每个 文本框进行特征提取, 得到每个文本框的外观特 征、 位置特征 以及内容特征; 确定外观累积上下 文特征集、 位置累积上下文特征集以及内容累积 上下文特征集; 对外观累积上下文特征集以及位 置累积上下文特征集进行融合处理, 得到第一融 合特征; 对位置累积上下文特征集以及内容累积 上下文特征集进行融合处理, 得到第二融合特 征; 基于第一融合特征以及第二融合特征, 得到 表格图像的表格结构信息。 本申请提高了表格结 构信息的识别准确率。 权利要求书3页 说明书15页 附图6页 CN 114529931 A 2022.05.24 CN 114529931 A 1.一种表格结构识别方法, 其特 征在于, 所述方法包括: 将表格图像划分成至少两个文本 框; 对每个文本框进行特征提取, 得到每个文本框的外观特征、 位置特征以及内容特征; 所 述文本框的外观特 征表征所述文本 框的图像特 征; 基于各个文本框的外观特征、 位置特征以及内容特征, 确定外观累积上下文特征集、 位 置累积上 下文特征集以及内容累积上 下文特征集; 对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理, 得到第 一融合特 征; 对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理, 得到第 二融合特 征; 基于所述第一融合特征以及所述第二融合特征, 得到所述表格图像的表格结构信息; 所述表格结构信息包括各个文本 框中文本在表格中的行信息、 列信息以及单 元格信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述基于各个文本框的外观特征、 位置特 征以及内容特征, 确定外观累积上下文特征集、 位置累积上下文特征集以及内容累积上下 文特征集, 包括: 基于所述各个文本 框的外观特 征, 构建第一图邻接矩阵; 基于所述各个文本 框的位置特 征, 构建第二图邻接矩阵; 基于所述各个文本 框的内容特 征, 构建第三图邻接矩阵; 根据第一图卷积网络对所述第 一图邻接矩阵进行卷积处理, 得到所述外观累积上下文 特征集; 根据第二图卷积网络对所述第 二图邻接矩阵进行卷积处理, 得到所述位置累积上下文 特征集; 根据第三图卷积网络对所述第 三图邻接矩阵进行卷积处理, 得到所述内容累积上下文 特征集。 3.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 基于多头交叉注意力网络构建神经协同模块, 所述神经协同模块包括两个多头交叉注 意力网络; 所述对所述外观累积上下文特征集以及所述位置累积上下文特征集进行融合处理, 得 到第一融合特 征, 包括: 基于所述神经协同模块, 对所述外观累积上下文特征集以及所述位置累积上下文特征 集进行融合处 理, 得到第一融合特 征; 所述对所述位置累积上下文特征集以及所述内容累积上下文特征集进行融合处理, 得 到第二融合特 征, 包括: 基于所述神经协同模块, 对所述位置累积上下文特征集以及所述内容累积上下文特征 集进行融合处 理, 得到第二融合特 征。 4.根据权利要求3所述的方法, 其特征在于, 所述神经协同模块包括第 一多头交叉注意 力网络和第二多头交叉注意力网络, 所述基于所述神经协同模块, 对所述外观累积上下文 特征集以及所述 位置累积上 下文特征集进行融合处 理, 得到第一融合特 征, 包括: 将所述外观累积上 下文特征集输入所述第一多头交叉注意力网络, 得到第一结果;权 利 要 求 书 1/3 页 2 CN 114529931 A 2将所述位置累积上 下文特征集输入所述第二多头交叉注意力网络, 得到第二结果; 对所述第一结果以及所述第二结果进行融合处 理, 得到所述第一融合特 征。 5.根据权利要求4所述的方法, 其特征在于, 所述神经协同模块包括第一归一化层、 第 二归一化层、 第三归一化层、 第一前馈层以及第二前馈层, 所述对所述第一结果以及所述第 二结果进行融合处 理, 得到所述第一融合特 征, 包括: 基于所述第 一归一化层对所述第 一结果以及所述第 二结果进行归一化处理, 得到第 一 归一化结果; 基于所述第一前馈层对所述第一归一 化结果进行处 理, 得到第一处 理结果; 基于所述第 二归一化层对所述第 一结果以及所述第 二结果进行归一化处理, 得到第 二 归一化结果; 基于所述第二前馈层对所述第二归一 化结果进行处 理, 得到第二处 理结果; 基于所述第 三归一化层对所述第 一处理结果以及所述第 二处理结果进行融合处理, 得 到所述第一融合特 征。 6.根据权利要求3所述的方法, 其特征在于, 所述基于所述第 一融合特征以及所述第 二 融合特征, 得到所述表格图像的表格结构信息, 包括: 基于所述神经协同模块, 对所述第一融合特征以及所述第二融合特征进行融合处理, 得到协同图嵌入结果; 对所述协同图嵌入结果进行解析, 得到所述表格图像的表格结构信息 。 7.根据权利要求6所述的方法, 其特征在于, 所述对所述协同图嵌入结果进行解析, 得 到所述表格图像的表格结构信息, 包括: 基于所述协同图嵌入结果, 确定至少两个表格特征对, 每组表格特征对包括预设数量 的表格特征, 所述表格特征包括内容特征以及与所述内容特征对应的外观特征和位置特 征; 将所述至少两个表格特征对按照维度信息进行串联操作, 得到表格特征集; 所述表格 特征集中表格特 征位于同一维度; 基于所述表格特 征集, 确定所述表格图像的表格结构信息 。 8.根据权利要求7所述的方法, 其特征在于, 所述神经协同模块包括全连接层, 所述基 于所述表格特 征集, 确定所述表格图像的表格结构信息, 包括: 基于所述全连接层对所述表格特征集中表格特征进行分类处理, 确定位于同一行的第 一表格特 征集、 位于同一列的第二表格特 征集以及位于同一单 元格的第三表格特 征集; 基于所述第一表格特征集、 所述第二表格特征集以及所述第三表格特征集, 确定所述 表格图像的表格结构信息 。 9.一种表格结构识别装置, 其特 征在于, 所述装置包括: 文本框确定模块, 用于将表格图像划分成至少两个文本 框; 特征提取模块, 用于对每个文本框进行特征提取, 得到每个文本框的外观特征、 位置特 征以及内容特 征; 所述文本 框的外观特 征表征所述文本 框的图像特 征; 上下文特征集确定模块, 用于基于各个文本框的外观特征、 位置特征以及内容特征, 确 定外观累积上 下文特征集、 位置累积上 下文特征集以及内容累积上 下文特征集; 第一融合模块, 用于对所述外观累积上下文特征集以及所述位置累积上下文特征集进权 利 要 求 书 2/3 页 3 CN 114529931 A 3

.PDF文档 专利 表格结构识别方法、装置、设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 表格结构识别方法、装置、设备及存储介质 第 1 页 专利 表格结构识别方法、装置、设备及存储介质 第 2 页 专利 表格结构识别方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:23:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。