专利一种文本识别方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210430333.2 (22)申请日 2022.04.22 (71)申请人深圳市星桐科技有限公司地址 518027 广东省深圳市福田区华强北街道福强社区红荔路2001号四川大厦 A座1413 (72)发明人秦勇　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师王艳斌 (51)Int.Cl. G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 40/30(2020.01) G06F 40/289(2020.01) G06V 30/19(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称一种文本识别方法、装置、电子设备和存储介质 (57)摘要本公开涉及一种文本识别方法、装置、电子设备和存储介质。本公开提供的方法包括：获取待识别图像，所述待识别图像为文本图像；将待识别图像输入到预先构建的识别网络模型中进行文本识别，得到第一识别结果，其中，识别模型包括特征提取模块、语义模块、第一识别模块和第二识别模块，利用特征提取模块提取待识别图像的特征，得到第一特征信息，利用第一识别模块对第一特征信息进行识别，得到第二识别结果，随后利用语义模块计算第二识别结果对应的语义表征向量，利用第二识别模块基于第一特征信息和语义表征向量，得到第一识别结果。本公开提供的方法能够快速准确的识别出图像中的文本。权利要求书3页说明书14页附图6页 CN 114758330 A 2022.07.15 CN 114758330 A 1.一种文本识别方法，其特征在于，包括：获取待识别图像，所述待识别图像为文本图像；将所述待识别图像输入到预先构建的识别网络模型中进行文本识别，得到第一识别结果，其中，所述识别模型包括特征提取模块、语义模块、第一识别模块和第二识别模块，利用所述特征提取模块提取所述待识别图像的特征，得到第一特征信息，利用所述第一识别模块对所述第一特征信息进行识别，得到第二识别结果，利用所述语义模块计算所述第二识别结果对应的语义表征向量，利用所述第二识别模块基于所述第一特征信息和所述语义表征向量，得到所述第一识别结果。 2.根据权利要求1所述的方法，其特征在于，所述特征提取模块包括第一特征提取子模块和第二特征提取子模块；所述利用所述特征提取模块提取所述待识别图像的特征，得到第一特征信息，包括：利用所述第一特征提取子模块提取所述待识别图像的特征，得到第二特征信息；利用所述第二特征提取子模块对所述第二特征信息进行上下文建模，得到第一特征信息。 3.根据权利要求1所述的方法，其特征在于，所述语义模块包括词嵌入层和长短时记忆网络层；所述利用所述语义模块计算所述第二识别结果对应的语义表征向量，包括：将所述第二识别结果随机掩盖至少一个字符，并利用所述词嵌入层将掩盖至少一个字符后的所述第二识别结果转换为目标嵌入向量，其中，所述第二识别结果包括至少一个字符；利用所述长短时记忆网络层计算所述目标嵌入向量的语义表征向量。 4.根据权利要求3所述的方法，其特征在于，所述将所述第二识别结果随机掩盖至少一个字符，并利用所述词嵌入层将掩盖至少一个字符后的所述第二识别结果转换为目标嵌入向量，包括：将所述第二识别结果多次随机掩盖至少一个字符，且每次掩盖的至少一个字符不完全相同，得到所述第二识别结果对应的多个掩盖结果；针对每个掩盖结果，利用所述词嵌入层将所述掩盖结果转换为嵌入向量；根据多个所述嵌入向量得到目标嵌入向量。 5.根据权利要求1所述的方法，其特征在于，所述第二识别模块包括注意力层、解码层和全连接层；所述第一特征信息包括N个时间步的特征信息， N为大于1的整数；所述利用所述第二识别模块基于所述第一特征信息和所述语义表征向量，得到所述第一识别结果，包括：利用注意力层对所述第一特征信息进行处理，得到每个时间步的上下文向量；在所述解码层中，对于第一个时间步，将获取的初始隐状态向量和所述语义表征向量进行拼接得到第一拼接向量，并根据所述第一拼接向量和所述第一个时间步的上下文向量生成第一输出向量和第一个时间步的目标隐状态向量；对于第M个当前时间步，将所述第M个当前时间步的上一个时间步输出的目标隐状态向量和所述语义表征向量进行拼接得到当前拼接向量，并根据所述当前拼接向量和所述第M 个当前时间步的上下文向量生成第M个当前时间步对应的当前输出向量和第M个当前时间步的目标隐状态向量， M为大于1小于N的整数；权　利　要　求　书 1/3 页 2 CN 114758330 A 2针对所述N个时间步中除所述第一个时间步之外的其他时间步，依次执行得到第M个当前时间步对应的当前输出向量的过程，直到完成N个时间步的识别，根据所述第一输出向量和N‑1个当前时间步的当前输出向量，基于所述全连接层得到所述第一识别结果。 6.根据权利要求1所述的方法，其特征在于，所述识别网络模型通过以下方法训练获得：获取样本图像和所述样本图像对应的标注文本信息；将所述标注文本信息输入到预先训练的语言模型中，得到第一预测表征向量；将所述样本图像、所述标注文本信息和所述第一预测表征向量输入到预先构建的识别模型中，得到第二预测表征向量、第一预测识别结果和第二预测识别结果；根据所述标注文本信息、所述第一预测表征向量、所述第二预测表征向量、所述第一预测识别结果和所述第二预测识别结果计算损失值，并根据所述损失值更新所述识别模型的网络参数。 7.根据权利要求6所述的方法，其特征在于，所述将所述样本图像、所述标注文本信息和所述第一预测表征向量输入到预先构建的识别模型中，得到第二预测表征向量、第一预测识别结果和第二预测识别结果，包括：将所述样本图像、所述标注文本信息和所述第一预测表征向量输入到预先构建的所述识别模型中，以使所述识别模型中的所述特征提取模块提取所述样本图像的特征，所述语义模块基于所述标注文本信息得到第二预测表征向量，所述第一识别模块基于所述样本图像的特征得到第一预测识别结果，所述第二识别模块基于所述样本图像的特征和所述第一预测表征向量得到第二预测识别结果。 8.根据权利要求6所述的方法，其特征在于，所述损失值包括第一损失值、第二损失值和第三损失值；所述根据所述标注文本信息、所述第一预测表征向量、所述第二预测表征向量、所述第一预测识别结果和所述第二预测识别结果计算损失值，包括：采用第一损失函数根据所述第一预测表征向量和所述第二预测表征向量计算所述第一损失值；采用第二损失函数根据所述标注文本信息和所述第一预测识别结果计算所述第二损失值；采用第三损失函数根据所述标注文本信息和所述第二预测识别结果计算所述第三损失值。 9.根据权利要求6所述的方法，其特征在于，所述将所述标注文本信息输入到预先训练的语言模型中，得到第一预测表征向量，包括：将所述标注文本信息进行分词处理，得到多个分词；针对所述多个分词，每次掩盖所述多个分词中的一个分词，得到多个掩盖后的分词；将多个所述掩盖后的分词依次输入到预先训练的语言模型中，得到多个第三预测表征向量；根据多个所述第三预测表征向量得到第一预测表征向量。 10.一种文本识别装置，其特征在于，包括：获取单元，用于获取待识别图像，所述待识别图像为文本图像；识别单元，用于将所述待识别图像输入到预先构建的识别网络模型中进行文本识别，权　利　要　求　书 2/3 页 3 CN 114758330 A 3

专利 一种文本识别方法、装置、电子设备和存储介质

专利一种文本识别方法、装置、电子设备和存储介质