专利文字识别方法、装置、计算机可读介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210033845.5 (22)申请日 2022.01.12 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林荫北街13号信息大厦802室 (72)发明人毛晓飞　黄灿　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师贺晓蕾 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 10/44(2022.01) G06V 30/262(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文字识别方法、装置、计算机可读介质及电子设备 (57)摘要本公开涉及一种文字识别方法、装置、计算机可读介质及电子设备，该文字识别方法包括：获取多个包含文本的待识别图片，利用文字识别模型识别待识别图片中的文字，得到识别结果，文字识别模型是根据多个包含文本的样本图片中的字符的语义信息及位置特征训练得到的。融合字符位置信息的文字识别模型，能够有效利用样本图片中字符之间的相对位置信息，结合字符本身的语义信息，提高了文字识别的准确率。权利要求书2页说明书11页附图5页 CN 114677668 A 2022.06.28 CN 114677668 A 1.一种文字识别方法，其特征在于，包括：获取包含文本的待识别图片；利用文字识别模型识别所述待识别图片中的文字，得到识别结果；其中，所述文字识别模型是根据多个包含文本的样本图片中的字符的语义信息及位置特征训练得到的。 2.根据权利要求1所述的方法，其特征在于，所述文字识别模型是通过以下方式训练得到：获取所述多个包含文本的样本图片；提取所述样本图片中的图片特征，将所述图片特征转换为固定维度的序列特征；对所述固定维度的序列特征进行维度转换，得到维度转换后的序列特征；获取所述维度转换后的序列特征中的所述字符的语义信息及位置特征；利用根据所述语义信息及所述位置特征得到的损失函数，对文字识别模型进行训练。 3.根据权利要求2所述的方法，其特征在于，所述语义信息包括字符分类特征、所述字符分类特征对应的分类标签，所述位置特征包括字符的位置回归特征、所述位置回归特征对应的位置标签；所述获取所述维度转换后的序列特征中的字符的语义信息及位置特征的步骤包括：获取所述维度转换后的序列特征中的字符的语义；根据所述字符的语义得到所述字符分类特征；根据所述字符分类特征从预定义的字符标签集中获取所述字符分类特征对应的所述分类标签；获取所述维度转换后的序列特征中的字符之间的相对位置；获取所述相对位置的预定义位置标签；对所述预定义标签进行归一化处理，得到所述位置回归特征及所述位置回归特征对应的位置标签。 4.根据权利要求3所述的方法，其特征在于，所述根据所述语义特征及所述位置特征得到所述损失函数的方法包括：根据所述维度转换后的序列特征中字符的字符分类特征、所述字符分类特征对应的分类标签，以及位置回归特征、所述位置回归特征对应的位置标签确定所述损失函数。 5.根据权利要求 4所述的方法，其特征在于，所述损失函数的计算公式包括： Loss1＝CTC(Z1， G1)+λMSE(Z2， G2) 其中， CTC为字符分类损失， Z1为所述字符分类特征， G1为所述分类标签， Z2为所述位置回归特征， λ为系数，所述 λ 的取值范围为0 ‑1， MSE为字符位置损失， G2为所述位置标签。 6.根据权利要求2所述的方法，其特征在于，所述对所述固定维度的序列特征进行维度转换，得到维度转换后的序列特征的步骤包括；对所述固定维度的序列特征进行升维处理，得到升维处理后的序列特征；对所述升维处理后的序列特征进行降维处理，得到所述维度转换后的序列特征。 7.根据权利要求2所述的方法，其特征在于，所述文字识别模型包括图片特征提取模型、至少一个位置融合模块、 decoder模型及全连接层；权　利　要　求　书 1/2 页 2 CN 114677668 A 2所述图片特征提取模型用于提取所述文本行图片中的文本行后，将所述文本行转换为固定维度的序列特征；所述位置融合模块包括encoder模型、第一全连接层及第二全连接层；所述第一全连接层用于对所述固定维度的序列特征进行升维处理，得到升维处理后的序列特征；所述第二全连接层用于对所述升维处理后的序列特征进行降维处理，得到所述维度转换后的序列特征；获取所述维度转换后的序列特征中的字符的语义信息及位置特征；根据所述语义信息及所述位置特征得到损失函数。 8.一种文字识别装置，其特征在于，包括：获取模块，用于获取包含文本的待识别图片；处理模块，用于利用文字识别模型识别所述待识别图片中的文字，得到识别结果；其中，所述文字识别模型是根据多个包含文本的样本图片中的字符的语义信息及位置特征训练得到的。 9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理装置执行时实现权利要求1 ‑7中任一项所述方法的步骤。 10.一种电子设备，其特征在于，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1 ‑7中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114677668 A 3

专利 文字识别方法、装置、计算机可读介质及电子设备

专利文字识别方法、装置、计算机可读介质及电子设备