全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210386897.0 (22)申请日 2022.04.13 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 胡益清 毛中杰 曹浩宇 李倩玉  姜德强  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 贾允 (51)Int.Cl. G06V 30/41(2022.01) G06V 30/148(2022.01) G06V 30/18(2022.01) G06V 30/24(2022.01)G06V 10/80(2022.01) G06K 9/62(2022.01) G06F 40/279(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) (54)发明名称 基于多模态的文档识别方法、 装置、 设备和 存储介质 (57)摘要 本申请提供一种基于多模态的文档识别方 法、 装置、 设备和存储介质, 涉及人工智能领域, 可以应用于云技术、 人工智能、 智慧交通、 辅助驾 驶等各种场景, 方法包括: 对待识别文档对应的 文档图像进行图像分割处理, 得到文本图像块、 非文本图像块和分块位置信息; 分别对文本图像 块和非文本图像块进行特征提取, 得到文本分词 的分词特征、 分词位置信息、 第二图像特征和分 词位置特征, 以及非文本图像块的第一图像特征 和分块位置特征; 基于分词位置信息和分块位置 信息, 对分词特征、 第一图像特征、 第二图像特 征、 分词位置特征和分块位置特征进行特征融合 处理, 对得到的多模态融合特征进行实体识别, 得到文档识别结果。 本申请显著提高识别准确 率, 泛化性强。 权利要求书3页 说明书16页 附图7页 CN 115131801 A 2022.09.30 CN 115131801 A 1.一种基于多模态的文档识别方法, 其特 征在于, 所述方法包括: 获取待识别文档对应的文档图像, 所述待识别文档中包括至少一种文档元 素; 对所述待识别文档对应的文档图像进行图像分割处理, 得到所述待识别文档对应的文 本图像块、 非文本图像块和分块 位置信息; 分别对所述文本图像块和所述非文本图像块进行分词特征提取, 得到所述待识别文档 对应的文本分词的分词特 征和分词位置信息; 对所述文档图像进行所述非文本图像块和所述文本分词的图像特征提取, 得到所述非 文本图像块的第一图像特 征和所述文本分词的第二图像特 征; 分别对所述文本分词的分词位置信 息和所述分块位置信 息进行特征映射处理, 得到所 述文本分词的分词位置特 征和所述非文本图像块的分块 位置特征; 基于所述分词位置信 息和所述分块位置信 息, 对所述分词特征、 所述第 一图像特征、 所 述第二图像特征、 所述分词位置特征和所述分块位置特征进行特征融合处理, 得到所述待 识别文档的多模态融合特 征; 对所述多模态融合特征进行实体识别, 得到所述待识别文档的文档识别结果, 所述文 档识别结果包括所述待识别文档对应的文本分词和非文本图像块的实体 类别。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述多模态融合特征进行实体识 别, 得到所述待识别文档的文档识别结果包括: 调用目标实体识别网络对所述多模态融合特征进行实体识别, 得到所述文档识别结 果; 其中, 所述目标实体识别网络是基于第 一样本文档图像对应的样本 融合特征和实体类 别标签对预训练识别网络进行实体识别的约束训练得到的, 所述预训练识别网络为基于第 二样本文档图像对应的样本融合特征和文档类别标签对初始识别网络进行特征遮盖预测 和文档分类识别的联合训练得到的。 3.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取训练数据集和初始识别网络, 所述训练数据集包括第 二样本文档图像和对应的文 档类别标签; 对所述第二样本文档图像进行特征提取, 得到所述第 二样本文档图像对应的样本 融合 特征; 对所述样本融合特 征进行特征遮盖处 理, 得到目标样本特 征; 以所述目标样本特征作为所述初始识别网络的输入, 分别以遮盖特征和文档类别标签 作为期望输出, 对所述初始识别网络进行特征遮盖预测和文档分类识别的联合训练, 得到 所述预训练识别网络 。 4.根据权利要求1 ‑3中任一项所述的方法, 其特征在于, 所述分别 对所述文本图像块和 所述非文本图像块进 行分词特征提取, 得到所述待识别文档对应的文本分词的分词特征和 分词位置信息包括: 获取所述非文本图像块对应的元素块标识文本, 所述元素块标识文本表征所述非文本 图像块的文档元 素类别; 对所述文本图像块进行字符识别, 得到所述文本图像块对应的文本行和所述文本行的 位置信息;权 利 要 求 书 1/3 页 2 CN 115131801 A 2分别对所述文本行和所述元素块标识文本进行分词处理, 得到所述待识别文档对应的 文本分词; 基于所述文本行的位置信息和所述分块位置信息, 确定所述文本分词的分词位置信 息; 对所述文本分词进行 特征嵌入处 理, 得到所述文本分词的分词特 征。 5.根据权利要求1 ‑3中任一项所述的方法, 其特征在于, 所述对所述文档图像进行所述 非文本图像块和所述文本分词的图像特征提取, 得到所述非文本图像块的第一图像特征和 所述文本分词的第二图像特 征包括: 分别获取所述非文本图像块和所述文本分词在所述文档图像中对应的图像区域的特 征图; 分别对所述非文本图像块对应的特征图和所述文本分词对应的特征图进行特征提取, 得到所述第一图像特 征和所述第二图像特 征。 6.根据权利要求5所述的方法, 其特征在于, 所述分别获取所述非文本图像块和所述文 本分词在所述文档图像中对应的图像区域的特 征图包括: 对所述文档图像进行 卷积处理, 得到所述文档图像对应的文档特 征图; 基于所述分词位置信 息和所述分块位置信 息, 从所述文档特征图中确定出所述文本分 词对应的特 征图和所述非文本图像块对应的特 征图。 7.根据权利要求5所述的方法, 其特征在于, 所述分别获取所述非文本图像块和所述文 本分词在所述文档图像中对应的图像区域的特 征图包括: 分别获取 所述文本分词和所述非文本图像块在所述文档图像中对应的图像区域; 对所述文本分词和所述非文本图像块对应的图像区域进行卷积处理, 得到所述文本分 词对应的特 征图和所述非文本图像块对应的特 征图。 8.根据权利要求1 ‑3中任一项所述的方法, 其特征在于, 所述基于所述分词位置信 息和 所述分块位置信息, 对所述分词特征、 所述第一图像特征、 所述第二图像特征、 所述分词位 置特征和所述分块位置特征进 行特征融合处理, 得到所述待识别文档的多模态融合特征包 括: 基于所述分词位置信息和所述分块位置信息, 分别进行所述分词特征的特征拼接处 理, 所述第一图像特征和所述第二图像特征 的特征拼接处理, 以及所述分词位置特征和所 述分块位置特征 的特征拼接处理, 得到所述待识别文档的文本拼接特征、 图像拼接特征和 位置拼接特 征; 对所述待识别文档的文本拼接特征、 图像拼接特征和位置拼接特征进行特征融合, 得 到所述多模态融合特 征。 9.根据权利要求4所述的方法, 其特征在于, 在所述对所述目标文档特征进行实体识 别, 得到文档识别结果之后, 所述方法还 包括: 根据所述文档识别结果, 从所述待识别文档对应的文本行中确定出目标文本行, 所述 目标文本行中存在至少两种实体 类别的文本分词; 对所述至少两种实体类别进行分词数统计, 得到所述至少两种实体类别中每一实体类 别的文本分词数; 将所述文本分词数最多的实体 类别作为所述目标文本行的目标实体 类别;权 利 要 求 书 2/3 页 3 CN 115131801 A 3

.PDF文档 专利 基于多模态的文档识别方法、装置、设备和存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多模态的文档识别方法、装置、设备和存储介质 第 1 页 专利 基于多模态的文档识别方法、装置、设备和存储介质 第 2 页 专利 基于多模态的文档识别方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:37:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。