专利文本识别的方法、装置、可读介质和电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210032616.1 (22)申请日 2022.01.12 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林荫北街13号信息大厦802室 (72)发明人毛晓飞　黄灿　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师贺晓蕾 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01)G06K 9/62(2022.01) G06V 30/262(2022.01) (54)发明名称文本识别的方法、装置、可读介质和电子设备 (57)摘要本公开涉及一种文本识别的方法、装置、可读介质和电子设备，涉及计算机技术领域，包括：获取待识别的文本行图片；将该文本行图片输入预先训练的文本识别模型，以得到该文本识别模型输出的该文本行图片中的文本；其中，该文本识别模型是根据第一目标字符对预设训练模型进行训练得到的，该第一目标字符是将第一语义融合特征进行字符转换后得到的字符，该第一语义融合特征是将用于训练的样本图片中的第一目标序列特征与该样本图片的第一语义特征进行融合处理得到的特征，该第一语义特征是根据该第一目标序列特征得到的特征。这样，能够使得文本行图片特征提取的更完整，从而提高了文本图像识别的准确率。权利要求书2页说明书11页附图4页 CN 114495081 A 2022.05.13 CN 114495081 A 1.一种文本识别的方法，其特征在于，所述方法包括：获取待识别的文本行图片；将所述文本行图片输入预先训练的文本识别模型，以得到所述文本识别模型输出的所述文本行图片中的文本；其中，所述文本识别模型是根据第一目标字符对预设训练模型进行训练得到的，所述第一目标字符是将第一语义融合特征进行字符转换后得到的字符，所述第一语义融合特征是将用于训练的样本图片中的第一目标序列特征与所述样本图片的第一语义特征进行融合处理得到的特征，所述第一语义特征是根据所述第一目标序列特征得到的特征。 2.根据权利要求1所述的方法，其特征在于，所述文本识别模型是通过以下方式训练得到：获取多个用于训练的样本图片；从所述样本图片中获取第一目标序列特征；根据所述第一目标序列特征获取所述样本图片的第一语义特征；将所述第一目标序列特征与所述第一语义特征进行融合，得到所述第一语义融合特征；将所述第一语义融合特征转换为所述第一目标字符；根据所述第一目标字符对预设训练模型进行训练，得到所述文本识别模型。 3.根据权利要求2所述的方法，其特征在于，所述根据所述第一目标序列特征获取所述样本图片的第一语义特征包括：将所述第一目标序列特征转换为第一待处理字符；从所述第一待处理字符中提取所述第一语义特征。 4.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取所述第一待处理字符的置信度；所述从所述第一待处理字符中提取所述语义特征包括：从所述置信度大于或者等于预设置信度阈值的所述第一待处理字符中，提取所述第一语义特征。 5.根据权利要求2所述的方法，其特征在于，所述将所述第一目标序列特征与所述第一语义特征进行融合，得到所述第一语义融合特征包括：将所述第一目标序列特征和所述第一语义特征相加，得到所述第一语义融合特征。 6.根据权利要求2所述的方法，其特征在于，所述从所述样本图片中获取第一目标序列特征包括：从所述样本图片中提取第一待编码序列特征，并对所述第一待编码序列特征进行编码处理，得到所述第一目标序列特征。 7.根据权利要求6所述的方法，其特征在于，所述将所述第一语义融合特征转换为所述第一目标字符包括：对所述第一语义融合特征进行解码处理，并将解码后的第一语义融合特征转换为对应的所述第一目标字符。 8.根据权利要求1至7中任一项所述的方法，其特征在于，所述文本识别模型包括特征提取模型、至少一个语义融合模型、解码模型以及第一全连接层，其中，在至少一个语义融权　利　要　求　书 1/2 页 2 CN 114495081 A 2合模型为多个的情况下，多个所述语义融合模型依次串联耦合；所述特征提取模型，用于从输入的所述文本行图片中获取第二待编码序列特征；所述语义融合模型，用于对所述特征提取模型输出的第二待编码序列特征进行编码处理，得到第二目标序列特征，并根据所述第二目标序列特征获取所述文本行图片的第二语义特征，并将所述第二目标序列特征与所述第二语义特征进行融合，得到所述第二语义融合特征；所述解码模型，用于对所述语义融合模型输出的第二语义融合特征进行解码；所述第一全连接层，用于将所述解码模型输出的解码后的第二语义融合特征，转换为第二目标字符。 9.根据权利要求8所述的方法，其特征在于，所述语义融合模型包括：编码子模型、第二全连接层和语言子模型；所述编码子模型，用于对所述特征提取模型输出的第二待编码序列特征进行编码处理，得到第二目标序列特征；所述第二全连接层，用于将所述编码子模型输出的第二目标序列特征转换为第二待处理字符；所述语言子模型，用于从所述第二全连接层输出的所述第二待处理字符中，提取所述第二语义特征。 10.一种文本识别的装置，其特征在于，所述装置包括：获取模块，用于获取待识别的文本行图片；识别模块，用于将所述文本行图片输入预先训练的文本识别模型，以得到所述文本识别模型输出的所述文本行图片中的文本；其中，所述文本识别模型是根据第一目标字符对预设训练模型进行训练得到的，所述第一目标字符是将第一语义融合特征进行字符转换后得到的字符，所述第一语义融合特征是将用于训练的样本图片中的第一目标序列特征与所述样本图片的第一语义特征进行融合处理得到的特征，所述第一语义特征是根据所述第一目标序列特征得到的特征。 11.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1至9中任一项所述方法的步骤。 12.一种电子设备，其特征在于，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1至9中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114495081 A 3

专利 文本识别的方法、装置、可读介质和电子设备

专利文本识别的方法、装置、可读介质和电子设备