全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210110161.0 (22)申请日 2022.01.28 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 吴亮 刘珊珊 乔美娜 吕鹏原  章成全 姚锟  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 代理人 吴晓兵 (51)Int.Cl. G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本识别方法、 模 型的训练方法、 装置、 电子 设备及介质 (57)摘要 本公开提供了一种文本识别方法、 文本识别 模型的训练方法、 装置、 电子设备、 存储介质以及 程序产品, 涉及人工智 能技术领域, 尤其涉及深 度学习、 计算机视觉技术领域, 可应用于OCR等场 景。 具体实现方案为: 对待处理图像进行特征提 取处理, 得到特征图; 对特征图进行视觉注意力 增强处理, 得到视觉注意力增强特征向量; 以及 基于视觉注 意力增强特征向量, 确定待处理图像 中的文字内容。 权利要求书3页 说明书12页 附图5页 CN 114429633 A 2022.05.03 CN 114429633 A 1.一种文本识别方法, 包括: 对待处理图像进行 特征提取处 理, 得到特 征图; 对所述特 征图进行视 觉注意力增强处 理, 得到视觉注意力增强特 征向量; 以及 基于所述视 觉注意力增强特 征向量, 确定所述待处 理图像中的文字内容。 2.根据权利要求1所述的方法, 其中, 所述对所述特征图进行视觉注意力增强处理, 得 到视觉注意力增强特 征向量包括: 利用双重视觉注意力模块对所述特征图进行视觉注意力增强处理, 得到所述视觉注意 力增强特 征向量。 3.根据权利要求2所述的方法, 其中, 所述双重视觉注意力模块包括级联的第 一视觉注 意力单元、 第二视 觉注意力单 元和融合单 元; 所述利用双重视觉注意力模块对所述特征图进行视觉注意力增强处理, 得到所述视觉 注意力增强特 征向量包括: 利用所述第 一视觉注意力单元对所述特征图进行第 一视觉注意力增强处理, 得到第 一 视觉注意力增强子特 征向量; 利用所述第 二视觉注意力单元对所述特征图进行第 二视觉注意力增强处理, 得到第 二 视觉注意力增强子特 征向量; 以及 利用所述融合单元将所述第一视觉注意力增强子特征向量和所述第二视觉注意力增 强子特征向量进行融合, 得到所述视 觉注意力增强特 征向量。 4.根据权利要求3所述的方法, 其中, 所述第一视觉注意力单元包括级联的第一卷积 层、 归一化层和第二卷积层; 所述利用所述第 一视觉注意力单元对所述特征图进行第 一视觉注意力增强处理, 得到 第一视觉注意力增强子特 征向量包括: 利用所述第一卷积层对所述特征图进行通道维度的第一特征提取, 得到第一特征向 量; 利用所述归一化层对所述第一特征向量进行通道维度的归一化处理和序列维度的归 一化处理, 得到归一 化特征向量; 以及 利用所述第 二卷积层对所述归一化特征向量进行通道维度的第 二特征提取, 得到所述 第一视觉注意力增强子特 征向量。 5.根据权利要求 4所述的方法, 其中, 所述第二视 觉注意力单 元包括第三卷积层, 所述利用所述第 二视觉注意力单元对所述特征图进行第 二视觉注意力增强处理, 得到 第二视觉注意力增强子特 征向量包括: 利用所述第 三卷积层对所述特征图进行空间维度的特征提取, 得到所述第 二视觉注意 力增强子特 征向量。 6.根据权利要求5所述的方法, 其中, 所述第 一卷积层的卷积核尺寸与 所述第二卷积层 的卷积核尺寸相同; 以及所述第一卷积层的卷积核尺寸小于所述第三卷积层的卷积核尺 寸。 7.根据权利要求2至6中任一项所述的方法, 其中, 所述利用 双重视觉注意力模块对所 述特征图进行视 觉注意力增强处 理, 得到所述视 觉注意力增强特 征向量包括: 利用多个双重视觉注意力模块对所述特征图进行视觉注意力增强处理, 得到所述视觉权 利 要 求 书 1/3 页 2 CN 114429633 A 2注意力增强特 征向量, 其中, 所述多个双重 视觉注意力模块并联或者级联。 8.一种文本识别模型的训练方法, 包括: 利用训练样本训练文本识别模型, 得到训练后的文本识别模型, 其中, 所述训练样本包 括图像样本和标签, 所述标签用于表征 所述图像样本中的文字内容, 其中, 所述文本识别模型用于: 对待处理图像进行特征提取处理, 得到特征图; 对所述特征图进行视觉注意力增强处 理, 得到视觉注意力增强特征向量; 以及基于所述视觉注意力增强特征向量, 确定所述待处 理图像中的文字内容。 9.一种文本识别装置, 包括: 提取模块, 用于对待处 理图像进行 特征提取处 理, 得到特 征图; 增强模块, 用于对所述特征图进行视觉注意力增强处理, 得到视觉注意力增强特征向 量; 以及 确定模块, 用于基于所述视觉注意力增强特征向量, 确定所述待处理图像中的文字内 容。 10.根据权利要求9所述的装置, 其中, 所述增强模块包括: 增强子模块, 用于利用 双重视觉注意力模块对所述特征图进行视觉注意力增强处理, 得到所述视 觉注意力增强特 征向量。 11.根据权利要求10所述的装置, 其中, 所述双重视觉注意力模块包括级联的第 一视觉 注意力单 元、 第二视 觉注意力单 元和融合单 元; 所述增强子模块包括: 第一增强单元, 用于利用所述第 一视觉注意力单元对所述特征图进行第 一视觉注意力 增强处理, 得到第一视 觉注意力增强子特 征向量; 第二增强单元, 用于利用所述第 二视觉注意力单元对所述特征图进行第 二视觉注意力 增强处理, 得到第二视 觉注意力增强子特 征向量; 以及 融合单元, 用于利用所述融合单元将所述第 一视觉注意力增强子特征向量和所述第 二 视觉注意力增强子特 征向量进行融合, 得到所述视 觉注意力增强特 征向量。 12.根据权利要求11所述的装置, 其中, 所述第 一视觉注意力单元包括级联的第 一卷积 层、 归一化层和第二卷积层; 所述第一增强单 元包括: 第一增强子单元, 用于利用所述第 一卷积层对所述特征图进行通道维度的第 一特征提 取, 得到第一特 征向量; 归一化子单元, 用于利用所述归一化层对所述第 一特征向量进行通道维度的归一化处 理和序列维度的归一 化处理, 得到归一 化特征向量; 以及 第二增强子单元, 用于利用所述第 二卷积层对所述归一化特征向量进行通道维度的第 二特征提取, 得到所述第一视 觉注意力增强子特 征向量。 13.根据权利要求12所述的装置, 其中, 所述第二视 觉注意力单 元包括第三卷积层, 所述第二增强单 元包括: 第三增强子单元, 用于利用所述第三卷积层对所述特征图进行空间维度的特征提取, 得到所述第二视 觉注意力增强子特 征向量。权 利 要 求 书 2/3 页 3 CN 114429633 A 3

.PDF文档 专利 文本识别方法、模型的训练方法、装置、电子设备及介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本识别方法、模型的训练方法、装置、电子设备及介质 第 1 页 专利 文本识别方法、模型的训练方法、装置、电子设备及介质 第 2 页 专利 文本识别方法、模型的训练方法、装置、电子设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。