全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210018252.1 (22)申请日 2022.01.07 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 张文强 黄灿  (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 代理人 储倩 (51)Int.Cl. G06V 30/412(2022.01) G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06V 30/262(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种表格识别方法及装置 (57)摘要 本申请公开了一种表格识别方法, 可以获取 包括表格的待处理图像, 并确定所述待处理图像 中各个单元格的信息, 所述各个单元格的信息, 包括所述各个单元格的包围框的位置。 而后, 根 据所述各个单元格的信息, 得到所述各个单元格 在行方向上的父单元格和所述各个单元格在列 方向的父单元格。 进一步地, 可 以根据所述各个 单元格在行方向上的父子关系和所述各个单元 格在列方向上的父子关系, 得到所述各个单元格 的结构坐标, 其中, 所述结构坐标包括: 起始行、 起始列、 终止 行和终止列。 由于与图结构相比, 单 元格在行方向的父子关系和单元格在列方向的 父子关系更为简单。 因此, 利用本方案, 能够减少 确定单元格的结构坐标的计算 量。 权利要求书2页 说明书13页 附图2页 CN 114359938 A 2022.04.15 CN 114359938 A 1.一种表格识别方法, 其特 征在于, 所述方法包括: 获取包括表格的待处理图像, 并确定所述待处理图像中各个单元格的信息, 所述各个 单元格的信息, 包括所述各个单 元格的包围框的位置; 根据所述各个单元格的信 息, 得到所述各个单元格在行方向上的父单元格和所述各个 单元格在列方向的父 单元格; 根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关 系, 得到所述各个单元格的结构坐标, 其中, 所述结构坐标包括: 起始行、 起始列、 终止行和 终止列。 2.根据权利要求1所述的方法, 其特 征在于, 所述各个单 元格的信息, 还 包括: 所述各个单 元格内的文本的词嵌入向量, 和/或, 所述各个单 元格的视 觉特征。 3.根据权利要求1或2所述的方法, 其特征在于, 所述根据所述各个单元格的信 息, 得到 所述各个单 元格在行 方向上的父 单元格和所述各个单 元格在列方向的父 单元格, 包括: 将所述各个单元格的信 息输入机器学习模型, 得到所述各个单元格在行方向上的父单 元格和所述各个单 元格在列方向的父 单元格。 4.根据权利要求3所述的方法, 其特 征在于, 所述机器学习模型包括: 特征提取模块、 第一决策模块和第二决策模块; 所述特征提取模块, 用于对所述各个单 元格的信息进行处 理, 得到特性序列; 所述第一决策模块用于根据 所述特征序列, 得到所述各个单元格在行方向上的父单元 格; 所述第二决策模块用于根据 所述特征序列, 得到所述各个单元格在列方向上的父单元 格。 5.根据权利要求4所述的方法, 其特征在于, 所述特征提取模块为Transformer模型的 编码器。 6.根据权利要求4所述的方法, 其特征在于, 所述第 一决策模块和第 二决策模块均为自 注意力self ‑attention模块。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述各个单元格在行方向上的父 子关系和所述各个单 元格在列方向上的父子关系, 得到所述各个单 元格的结构坐标, 包括: 根据所述各个单元格在行方向上的父子关系, 确定所述各个单元格的起始行和终止 行; 根据所述各个单 元格在列方向上的父子关系, 确定所述各个单 元格的起始列和终止列。 8.根据权利要求7所述的方法, 其特征在于, 至少一棵树结构用于指示所述各个单元格 在行方向上 的父子关系, 一个单元格对应树上 的一个节点, 所述根据所述各个单元格在行 方向上的父子关系, 确定所述各个单 元格的起始行和终止行, 包括: 确定单元格i对应的起始行坐标b_i; 确定单 元格i所跨越的行 数r_i; 根据所述b_i和所述r_i, 确定单 元格i对应的终止行坐标为b_i+r_i ‑1; 其中: 若单元格i在其所在的树中对应的节点没有子分支, 则所述r_i为1; 否则, 单元格i对应 行数为其各个子分支的对应行 数之和; 若单元格i对应表头节点, 则起始行b_i等于单元格i所在的树的前一棵树的终止行加 1; 若该单元格i对应节点q的第k个子节点, 则起始行b_i等于b_q+sum1, 其中, b_ q为节点q权 利 要 求 书 1/2 页 2 CN 114359938 A 2的起始行, sum1为节点q的(k ‑1)个子分支的总跨越行 数之和。 9.根据权利要求7所述的方法, 其特征在于, 至少一棵树结构用于指示所述各个单元格 在行方向上 的父子关系, 一个单元格对应树上 的一个节点, 所述根据所述各个单元格在列 方向上的父子关系, 确定所述各个单 元格的起始列和终止列, 包括: 确定单元格i所跨越的列数s_i; 确定单 元格i对应的起始列坐标a_i; 根据所述s_i和a_i, 确定单 元格i对应的终止列坐标为a_i+s_i ‑1; 其中: 若单元格i在其所在的树中对应的节点没有子分支, 则所述s_i为1; 否则, 单元格i对应 列数为其各个子分支的对应列数之和; 若该单元格i对应表头节点, 则起始列a_i等于单元格i所在的树的前一棵树的表头节 点的终止列加1; 若该单元格i对应节点p的第j个子节点, 则起始列a_i等于a_p+sum2, 其中, a_p为节点p 的起始列, sum2为节点p的(j ‑1)个子分支的总跨越列数之和。 10.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据所述各个单 元格的结构坐标以及所述各个单 元格内的文本, 生成目标表格。 11.一种表格识别装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取包括表格的待处理图像, 并确定所述待处理图像中各个单元格的 信息, 所述各个单 元格的信息, 包括所述各个单 元格的包围框的位置; 第一确定单元, 用于根据所述各个单元格的信息, 得到所述各个单元格在行方向上的 父单元格和所述各个单 元格在列方向的父 单元格; 第二确定单元, 用于根据所述各个单元格在行方向上的父子关系和所述各个单元格在 列方向上的父子 关系, 得到所述各个单元格的结构坐标, 其中, 所述结构坐标包括: 起始行、 起始列、 终止行和终止列。 12.一种设备, 其特 征在于, 所述设备包括处 理器和存 储器; 所述处理器用于执行所述存储器中存储的指令, 以使得所述设备执行如权利要求1至 10中任一项所述的方法。 13.一种计算机可读存储介质, 其特征在于, 包括指令, 所述指令指示设备执行如权利 要求1至10中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114359938 A 3

.PDF文档 专利 一种表格识别方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种表格识别方法及装置 第 1 页 专利 一种表格识别方法及装置 第 2 页 专利 一种表格识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:14:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。