全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210430333.2 (22)申请日 2022.04.22 (71)申请人 深圳市星桐科技有限公司 地址 518027 广东省深圳市福田区华强北 街道福强社区红荔路2001号四川大厦 A座1413 (72)发明人 秦勇  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 王艳斌 (51)Int.Cl. G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 40/30(2020.01) G06F 40/289(2020.01) G06V 30/19(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称 一种文本识别方法、 装置、 电子设备和存储 介质 (57)摘要 本公开涉及一种文本识别方法、 装置、 电子 设备和存储介质。 本公开提供的方法包括: 获取 待识别图像, 所述待识别图像为文本图像; 将待 识别图像输入到预先构建的识别网络模型中进 行文本识别, 得到第一识别结果, 其中, 识别模型 包括特征提取模块、 语义模块、 第一识别模块和 第二识别模块, 利用特征提取模块提取待识别图 像的特征, 得到第一特征信息, 利用第一识别模 块对第一特征信息进行识别, 得到第二识别结 果, 随后利用语义模块计算第二识别结果对应的 语义表征向量, 利用第二识别模块基于第一特征 信息和语义表征向量, 得到第一识别结果。 本公 开提供的方法能够快速准确的识别出图像中的 文本。 权利要求书3页 说明书14页 附图6页 CN 114758330 A 2022.07.15 CN 114758330 A 1.一种文本识别方法, 其特 征在于, 包括: 获取待识别图像, 所述待识别图像为文本图像; 将所述待识别图像输入到预先构建的识别网络模型中进行文本识别, 得到第 一识别结 果, 其中, 所述识别模型包括特征提取模块、 语义模块、 第一识别模块和第二识别模块, 利用 所述特征提取模块提取所述待识别图像的特征, 得到第一特征信息, 利用所述第一识别模 块对所述第一特征信息进行识别, 得到第二识别结果, 利用所述语义模块计算所述第二识 别结果对应的语义表征向量, 利用所述第二识别模块基于所述第一特征信息和所述语义表 征向量, 得到所述第一识别结果。 2.根据权利要求1所述的方法, 其特征在于, 所述特征提取模块包括第 一特征提取子模 块和第二特征提取子模块; 所述利用所述特征提取模块提取所述待识别图像的特征, 得到 第一特征信息, 包括: 利用所述第一特 征提取子模块 提取所述待识别图像的特 征, 得到第二特 征信息; 利用所述第 二特征提取子模块对所述第 二特征信 息进行上下文建模, 得到第 一特征信 息。 3.根据权利要求1所述的方法, 其特征在于, 所述语义模块包括词嵌入层和长短时记忆 网络层; 所述利用所述语义模块计算所述第二识别结果对应的语义表征向量, 包括: 将所述第二识别结果随机掩盖至少一个字符, 并利用所述词嵌入层将掩盖至少一个字 符后的所述第二识别结果转换为 目标嵌入向量, 其中, 所述第二识别结果包括至少一个字 符; 利用所述长短时记 忆网络层计算所述目标嵌入向量的语义表征向量。 4.根据权利要求3所述的方法, 其特征在于, 所述将所述第 二识别结果随机掩盖至少一 个字符, 并利用所述词嵌入层将掩盖至少一个字符后的所述第二识别结果转换为目标嵌入 向量, 包括: 将所述第二识别结果多次随机掩盖至少一个字符, 且每次掩盖的至少一个字符不完全 相同, 得到所述第二识别结果对应的多个掩盖结果; 针对每个掩盖结果, 利用所述词嵌入层将所述掩盖结果 转换为嵌入向量; 根据多个所述嵌入向量得到目标嵌入向量。 5.根据权利要求1所述的方法, 其特征在于, 所述第二识别模块包括注意力层、 解码层 和全连接层; 所述第一特征信息包括N个时间步的特征信息, N为大于1的整数; 所述利用所 述第二识别模块基于所述第一特征信息和所述语义表征向量, 得到所述第一识别结果, 包 括: 利用注意力层对所述第一特 征信息进行处 理, 得到每 个时间步的上 下文向量; 在所述解码层中, 对于第一个时间步, 将获取的初始隐状态向量和所述语义表征向量 进行拼接得到第一拼接向量, 并根据所述第一拼接向量和所述第一个时间步的上下文向量 生成第一输出向量和第一个时间步的目标隐状态向量; 对于第M个当前时间步, 将所述第M个当前时间步的上一个时间步输出的目标隐状态向 量和所述语义表征向量进行拼接得到当前拼接 向量, 并根据所述当前拼接 向量和所述第M 个当前时间步的上下文向量生成第M个当前时间步对应的当前输出向量和第M个当前时间 步的目标隐状态向量, M为大于1小于N的整数;权 利 要 求 书 1/3 页 2 CN 114758330 A 2针对所述N个时间步中除所述第 一个时间步之外的其他 时间步, 依次执行得到第M个当 前时间步对应的当前输出向量的过程, 直到完成N个时间步的识别, 根据所述第一输出向量 和N‑1个当前时间步的当前输出向量, 基于所述全连接层得到所述第一识别结果。 6.根据权利要求1所述的方法, 其特征在于, 所述识别网络模型通过以下方法训练获 得: 获取样本图像和所述样本图像对应的标注文本信息; 将所述标注文本信息 输入到预 先训练的语言模型中, 得到第一预测表征向量; 将所述样本图像、 所述标注文本信 息和所述第 一预测表征向量输入到预先构建的识别 模型中, 得到第二预测表征向量、 第一预测识别结果和第二预测识别结果; 根据所述标注文本信 息、 所述第 一预测表征向量、 所述第 二预测表征向量、 所述第一预 测识别结果和所述第二预测识别结果计算损失值, 并根据所述损失值更新所述识别模型的 网络参数。 7.根据权利要求6所述的方法, 其特征在于, 所述将所述样本 图像、 所述标注文本信息 和所述第一预测表征向量输入到预先构建的识别模型中, 得到第二预测表征向量、 第一预 测识别结果和第二预测识别结果, 包括: 将所述样本图像、 所述标注文本信 息和所述第 一预测表征向量输入到预先构建的所述 识别模型中, 以使所述识别模型中的所述特征提取模块提取所述样本图像的特征, 所述语 义模块基于所述标注文本信息得到第二预测表征向量, 所述第一识别模块基于所述样本图 像的特征得到第一预测识别结果, 所述第二识别模块基于所述样本图像的特征和所述第一 预测表征向量得到第二预测识别结果。 8.根据权利要求6所述的方法, 其特征在于, 所述损 失值包括第一损 失值、 第二损 失值 和第三损失值; 所述根据所述标注文本信息、 所述第一预测表征向量、 所述第二预测表征向 量、 所述第一预测识别结果和所述第二预测识别结果计算损失值, 包括: 采用第一损失函数根据所述第一预测表征向量和所述第二预测表征向量计算所述第 一损失值; 采用第二损失函数根据所述标注文本信息和所述第一预测识别结果计算所述第二损 失值; 采用第三损失函数根据所述标注文本信息和所述第二预测识别结果计算所述第三损 失值。 9.根据权利要求6所述的方法, 其特征在于, 所述将所述标注文本信 息输入到预先训练 的语言模型中, 得到第一预测表征向量, 包括: 将所述标注文本信息进行分词处 理, 得到多个分词; 针对所述多个分词, 每次掩盖所述多个分词中的一个分词, 得到多个掩盖后的分词; 将多个所述掩盖后的分词依次输入到预先训练的语言模型中, 得到多个第 三预测表征 向量; 根据多个所述第三预测表征向量得到第一预测表征向量。 10.一种文本识别装置, 其特 征在于, 包括: 获取单元, 用于获取待识别图像, 所述待识别图像为文本图像; 识别单元, 用于将所述待识别图像输入到预先构建的识别网络模型中进行文本识别,权 利 要 求 书 2/3 页 3 CN 114758330 A 3

.PDF文档 专利 一种文本识别方法、装置、电子设备和存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本识别方法、装置、电子设备和存储介质 第 1 页 专利 一种文本识别方法、装置、电子设备和存储介质 第 2 页 专利 一种文本识别方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。