专利基于多模态的文档识别方法、装置、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210386897.0 (22)申请日 2022.04.13 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人胡益清　毛中杰　曹浩宇　李倩玉　姜德强　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师贾允 (51)Int.Cl. G06V 30/41(2022.01) G06V 30/148(2022.01) G06V 30/18(2022.01) G06V 30/24(2022.01)G06V 10/80(2022.01) G06K 9/62(2022.01) G06F 40/279(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) (54)发明名称基于多模态的文档识别方法、装置、设备和存储介质 (57)摘要本申请提供一种基于多模态的文档识别方法、装置、设备和存储介质，涉及人工智能领域，可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，方法包括：对待识别文档对应的文档图像进行图像分割处理，得到文本图像块、非文本图像块和分块位置信息；分别对文本图像块和非文本图像块进行特征提取，得到文本分词的分词特征、分词位置信息、第二图像特征和分词位置特征，以及非文本图像块的第一图像特征和分块位置特征；基于分词位置信息和分块位置信息，对分词特征、第一图像特征、第二图像特征、分词位置特征和分块位置特征进行特征融合处理，对得到的多模态融合特征进行实体识别，得到文档识别结果。本申请显著提高识别准确率，泛化性强。权利要求书3页说明书16页附图7页 CN 115131801 A 2022.09.30 CN 115131801 A 1.一种基于多模态的文档识别方法，其特征在于，所述方法包括：获取待识别文档对应的文档图像，所述待识别文档中包括至少一种文档元素；对所述待识别文档对应的文档图像进行图像分割处理，得到所述待识别文档对应的文本图像块、非文本图像块和分块位置信息；分别对所述文本图像块和所述非文本图像块进行分词特征提取，得到所述待识别文档对应的文本分词的分词特征和分词位置信息；对所述文档图像进行所述非文本图像块和所述文本分词的图像特征提取，得到所述非文本图像块的第一图像特征和所述文本分词的第二图像特征；分别对所述文本分词的分词位置信息和所述分块位置信息进行特征映射处理，得到所述文本分词的分词位置特征和所述非文本图像块的分块位置特征；基于所述分词位置信息和所述分块位置信息，对所述分词特征、所述第一图像特征、所述第二图像特征、所述分词位置特征和所述分块位置特征进行特征融合处理，得到所述待识别文档的多模态融合特征；对所述多模态融合特征进行实体识别，得到所述待识别文档的文档识别结果，所述文档识别结果包括所述待识别文档对应的文本分词和非文本图像块的实体类别。 2.根据权利要求1所述的方法，其特征在于，所述对所述多模态融合特征进行实体识别，得到所述待识别文档的文档识别结果包括：调用目标实体识别网络对所述多模态融合特征进行实体识别，得到所述文档识别结果；其中，所述目标实体识别网络是基于第一样本文档图像对应的样本融合特征和实体类别标签对预训练识别网络进行实体识别的约束训练得到的，所述预训练识别网络为基于第二样本文档图像对应的样本融合特征和文档类别标签对初始识别网络进行特征遮盖预测和文档分类识别的联合训练得到的。 3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取训练数据集和初始识别网络，所述训练数据集包括第二样本文档图像和对应的文档类别标签；对所述第二样本文档图像进行特征提取，得到所述第二样本文档图像对应的样本融合特征；对所述样本融合特征进行特征遮盖处理，得到目标样本特征；以所述目标样本特征作为所述初始识别网络的输入，分别以遮盖特征和文档类别标签作为期望输出，对所述初始识别网络进行特征遮盖预测和文档分类识别的联合训练，得到所述预训练识别网络。 4.根据权利要求1 ‑3中任一项所述的方法，其特征在于，所述分别对所述文本图像块和所述非文本图像块进行分词特征提取，得到所述待识别文档对应的文本分词的分词特征和分词位置信息包括：获取所述非文本图像块对应的元素块标识文本，所述元素块标识文本表征所述非文本图像块的文档元素类别；对所述文本图像块进行字符识别，得到所述文本图像块对应的文本行和所述文本行的位置信息；权　利　要　求　书 1/3 页 2 CN 115131801 A 2分别对所述文本行和所述元素块标识文本进行分词处理，得到所述待识别文档对应的文本分词；基于所述文本行的位置信息和所述分块位置信息，确定所述文本分词的分词位置信息；对所述文本分词进行特征嵌入处理，得到所述文本分词的分词特征。 5.根据权利要求1 ‑3中任一项所述的方法，其特征在于，所述对所述文档图像进行所述非文本图像块和所述文本分词的图像特征提取，得到所述非文本图像块的第一图像特征和所述文本分词的第二图像特征包括：分别获取所述非文本图像块和所述文本分词在所述文档图像中对应的图像区域的特征图；分别对所述非文本图像块对应的特征图和所述文本分词对应的特征图进行特征提取，得到所述第一图像特征和所述第二图像特征。 6.根据权利要求5所述的方法，其特征在于，所述分别获取所述非文本图像块和所述文本分词在所述文档图像中对应的图像区域的特征图包括：对所述文档图像进行卷积处理，得到所述文档图像对应的文档特征图；基于所述分词位置信息和所述分块位置信息，从所述文档特征图中确定出所述文本分词对应的特征图和所述非文本图像块对应的特征图。 7.根据权利要求5所述的方法，其特征在于，所述分别获取所述非文本图像块和所述文本分词在所述文档图像中对应的图像区域的特征图包括：分别获取所述文本分词和所述非文本图像块在所述文档图像中对应的图像区域；对所述文本分词和所述非文本图像块对应的图像区域进行卷积处理，得到所述文本分词对应的特征图和所述非文本图像块对应的特征图。 8.根据权利要求1 ‑3中任一项所述的方法，其特征在于，所述基于所述分词位置信息和所述分块位置信息，对所述分词特征、所述第一图像特征、所述第二图像特征、所述分词位置特征和所述分块位置特征进行特征融合处理，得到所述待识别文档的多模态融合特征包括：基于所述分词位置信息和所述分块位置信息，分别进行所述分词特征的特征拼接处理，所述第一图像特征和所述第二图像特征的特征拼接处理，以及所述分词位置特征和所述分块位置特征的特征拼接处理，得到所述待识别文档的文本拼接特征、图像拼接特征和位置拼接特征；对所述待识别文档的文本拼接特征、图像拼接特征和位置拼接特征进行特征融合，得到所述多模态融合特征。 9.根据权利要求4所述的方法，其特征在于，在所述对所述目标文档特征进行实体识别，得到文档识别结果之后，所述方法还包括：根据所述文档识别结果，从所述待识别文档对应的文本行中确定出目标文本行，所述目标文本行中存在至少两种实体类别的文本分词；对所述至少两种实体类别进行分词数统计，得到所述至少两种实体类别中每一实体类别的文本分词数；将所述文本分词数最多的实体类别作为所述目标文本行的目标实体类别；权　利　要　求　书 2/3 页 3 CN 115131801 A 3

专利 基于多模态的文档识别方法、装置、设备和存储介质

专利基于多模态的文档识别方法、装置、设备和存储介质