专利 一种文本识别方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210541217.8 (22)申请日 2022.05.19 (71)申请人北京世纪好未来教育科技有限公司地址 100089 北京市海淀区中关村大街32 号蓝天和盛大厦1702- 03室 (72)发明人胡飞　李云良　王智浩　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师付宏艳 (51)Int.Cl. G06V 30/10(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称一种文本识别方法、装置、设备及介质 (57)摘要本公开涉及一种文本识别方法、装置、设备及介质，该方法包括：获取包含目标语句的待处理图像；目标语句由多个初始字符组成；基于待处理图像，获取一组字符图像以及与目标语句对应的生成语句；其中，每张字符图像包括一个初始字符；对各字符图像进行特征提取，得到各初始字符对应的图像特征；对生成语句进行特征提取，得到生成语句中各字符对应的文本特征；基于图像特征和文本特征，得到目标语句的文本识别结果。本公开能够提高文本识别结果的准确性。权利要求书3页说明书11页附图4页 CN 114973247 A 2022.08.30 CN 114973247 A 1.一种文本识别方法，其特征在于，包括：获取包含目标语句的待处理图像；所述目标语句由多个初始字符组成；基于所述待处理图像，获取一组字符图像以及与所述目标语句对应的生成语句；其中，每张字符图像包括一个初始字符；对各字符图像进行特征提取，得到各初始字符对应的图像特征；对所述生成语句进行特征提取，得到所述生成语句中各字符对应的文本特征；基于所述图像特征和所述文本特征，得到所述目标语句的文本识别结果。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取图文处理网络，所述图文处理网络的输入为所述字符图像和所述生成语句，输出为所述文本识别结果。 3.根据权利要求2所述的方法，其特征在于，所述图文处理网络包括：图像特征提取模块；所述对各字符图像进行特征提取，包括：通过所述图像特征提取模块分别对各字符图像中的初始字符进行形状特征的提取。 4.根据权利要求2所述的方法，其特征在于，所述图文处理网络包括：文本特征提取模块；所述对所述生成语句进行特征提取，包括：通过所述文本特征提取模块对所述生成语句进行上下文特征的提取。 5.根据权利要求2所述的方法，其特征在于，所述图文处理网络包括：特征融合模块和分类器；所述基于所述图像特征和所述文本特征，得到所述目标语句的文本识别结果，包括：通过所述特征融合模块对所述图像特征和所述文本特征进行融合，得到融合特征；通过所述分类器对所述融合特征进行文本识别，得到所述目标语句的文本识别结果。 6.根据权利要求5所述的方法，其特征在于，所述通过所述特征融合模块对所述图像特征和所述文本特征进行融合，包括：通过所述特征融合模块按照以下公式对所述图像特征和所述文本特征进行融合，得到融合特征：其中， gi表示第i个所述初始字符的图像特征， vi表示所述生成语句中与第i个所述初始字符对应的生成字符的文本特征， α和β 分别表示预设的参数， W表示所述特征融合模块的三维张量参数， b表示所述特征融合模块的偏置项， H （vi， gi）表示所述融合特征。 7.根据权利要求5所述的方法，其特征在于，所述通过所述分类器对所述融合特征进行文本识别，得到所述目标语句的文本识别结果，包括：通过所述分类器对所述初始字符对应的融合特征进行文本识别，得到与所述初始字符对应的目标字符；根据预设字典获取生成字符的第一置信分值和所述目标字符的第二置信分值；所述生成字符是所述生成语句中与所述初始字符对应的字符；根据所述第一置信分值和所述第二置信分值确定所述初始字符的字符识别结果；将多个初始字符的字符识别结果生成所述目标语句的文本识别结果。 8.根据权利要求7所述的方法，其特征在于，所述根据所述第一置信分值和所述第二置权　利　要　求　书 1/3 页 2 CN 114973247 A 2信分值确定所述初始字符的字符识别结果，包括：按照以下公式并根据所述第一置信分值和所述第二置信分值确定所述初始字符的字符识别结果：其中， oik表示所述目标字符的第二置信分值， rij表示所述生成字符的第一置信分值， thOk表示所述目标字符在所述字典中的置信度阈值， thrj和thrmj表示所述字典中两个字符之间差异性的区间端点值， j和k分别表示所述生成字符和所述目标字符在所述字典中的索引。 9.根据权利要求2所述的方法，其特征在于，所述图文处理网络的训练过程包括：获取多张第一图像和与所述第一图像一一对应的第二图像；其中，所述第一图像中包括基准字符，所述第二图像中包括与所述基准字符形近的对照字符；将所述基准字符和所述对照字符生成形近字集；从所述第一图像和所述第二图像中获取一组样本图像；其中，各样本图像中包括的第一字符与预设的样本语句中的字符一一匹配；从所述形近字集中获取组成训练生成语句的多个第二字符；其中，各第二字符与所述样本语句中的字符一一匹配；将所述一组样本图像和所述训练生成语句输入至待训练的图文处理网络进行处理，得到文本预测结果；根据所述样本语句和所述文本预测结果训练所述图文处理网络。 10.根据权利要求9所述的方法，其特征在于，所述方法还包括：按照所述样本图像为所述第一图像或所述第二图像，以及所述第二字符为所述基准字符或者所述对照字符，得到所述样本图像和所述第二字符之间的多种组合模式；确定所述组合模式之间的数据分配比例；获取从所述形近字集的基准字符中获取所述第二字符的目标概率；根据所述目标概率和所述数据分配比例，从所述第一图像和所述第二图像中获取所述样本图像以及从所述形近字集中获取所述第二字符。 11.根据权利要求1所述的方法，其特征在于，所述基于所述待处理图像，获取一组字符图像，包括：对所述待处理图像进行图像语义分割，得到一组以单个初始字符为单位的字符图像。 12.一种文本识别装置，其特征在于，包括：第一获取模块，用于获取包含目标语句的待处理图像；所述目标语句由多个初始字符组成；第二获取模块，用于基于所述待处理图像，获取一组字符图像以及与所述目标语句对应的生成语句；其中，每张字符图像包括一个初始字符；图像特征提取模块，用于对各字符图像进行特征提取，得到各初始字符对应的图像特征；文本特征提取模块，用于对所述生成语句进行特征提取，得到所述生成语句中各字符权　利　要　求　书 2/3 页 3 CN 114973247 A 3

专利 一种文本识别方法、装置、设备及介质

专利一种文本识别方法、装置、设备及介质