专利模型训练和文本识别方法、装置以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210138219.2 (22)申请日 2022.02.15 (71)申请人阿里巴巴（中国）有限公司地址 310051 浙江省杭州市滨江区长河街道网商路69 9号4号楼5楼5 08室 (72)发明人达铖　王鹏　姚聪　 (74)专利代理机构北京合智同创知识产权代理有限公司 1 1545 专利代理师李杰　杨雷 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/146(2022.01) G06V 10/422(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01)G06K 9/62(2022.01) (54)发明名称模型训练和文本识别方法、装置以及存储介质 (57)摘要本发明实施例提供了一种模型训练和文本识别方法、装置以及存储介质。所述模型训练方法包括：获取目标图像的图像特征和文本特征；融合所述图像特征和文本特征，得到所述目标图像的图文特征；基于所述图文特征和所述文本特征的校正文本标签，对文本校正模型进行训练，所述文本校正模型用于对所述文本特征进行校正。在本发明实施例的方案中，图文特征中融合了图像特征和文本特征，使得融合特征中包括了更多的图像特征所表征的上下文语义因素，因此，基于融合特征，对文本特征校正，提高了文本校正模型的校正能力，进而提高了文本识别效果。权利要求书2页说明书11页附图4页 CN 114495087 A 2022.05.13 CN 114495087 A 1.一种模型训练方法，包括：获取目标图像的图像特征和文本特征；融合所述图像特征和文本特征，得到所述目标图像的图文特征；基于所述图文特征和所述文本特征的校正文本标签，对文本校正模型进行训练，所述文本校正模型用于对所述文本特征进行校正。 2.根据权利要求1所述的方法，其中，所述获取目标图像的图像特征和文本特征，包括：对目标图像进行特征提取，得到图像特征；对所述图像特征进行文本识别，得到文本特征。 3.根据权利要求1所述的方法，其中，所述融合所述图像特征和文本特征，得到所述目标图像的图文特征，包括：将所述图像特征的维度表示和所述文本特征的维度表示进行拼接，得到所述目标图像的图文特征。 4.根据权利要求1所述的方法，其中，所述文本校正模型包括上下文融合层和校正层，所述上下文融合层的输出连接到所述校正层的输入，所述基于所述图文特征和所述文本特征的校正文本标签，对文本校正模型进行训练，包括：基于所述图文特征作为所述上下文融合层的输入，并且基于所述校正文本标签作为所述校正层的输出，训练所述文本校正模型，其中，所述上下文融合层用于对所述文本特征和所述图像特征进行上下文融合，所述校正层用于对上下文融合后的图文特征进行校正。 5.根据权利要求4所述的方法，其中，所述校正层包括删除操作模块和插入操作模块，所述删除操作模块的输出连接到所述插入操作模块的输入，所述删除操作模块的输入作为所述校正层的输入，所述插入操作模块的输出作为所述校正层的输出，所述删除操作模块用于对上下文融合后的图文特征进行字符删除，所述插入操作模块用于对删除字符的图文特征进行字符插入。 6.根据权利要求5所述的方法，其中，所述插入操作模块包括占位符添加模块和字符预测模块，所述删除操作模块的输入作为所述插入操作模块的输入，所述删除操作模块的输出连接到所述占位符添加模块的输入，所述占位符添加模块的输出作为所述插入操作模块的输出，其中，所述占位符添加模块用于对删除字符的图文特征进行占位符添加，所述字符预测模块用于对添加占位符的图文特征中的占位符进行字符预测。 7.一种文本识别方法，包括：对待识别图像进行特征提取，得到所述待识别图像的图像特征；融合所述图像特征和所述待识别图像的文本特征，得到所述待识别图像的图文特征；基于所述图文特征输入到文本校正模型，得到所述文本特征的校正文本，所述文本校正模型利用根据权利要求1 ‑6中任一项所述的方法训练得到。 8.根据权利要求7所述的方法，其中，所述基于所述图文特征输入到文本校正模型，得到所述文本特征的校正文本，包括：基于所述图文特征输入到文本校正模型，得到所述文本特征的初始校正文本；权　利　要　求　书 1/2 页 2 CN 114495087 A 2基于所述初始校正文本替代所述文本特征，更新所述图文特征。 9.根据权利要求7 所述的方法，其中，所述方法还包括：基于所述待识别图像的图像特征进行文本识别，得到所述待识别图像的文本特征。 10.根据权利要求7 所述的方法，其中，所述方法还包括：获取识别服务请求，所述识别服务请求中包括所述待识别图像；响应所述识别服务请求，返回所述文本特征的校正文本。 11.一种文本识别方法、包括：获取人机交互界面中针对待识别图像输入的触发指令；响应所述触发指令，基于所述待识别图像，生成识别服务请求；发送所述识别服务请求，以基于权利要求7 ‑10中任一项所述的文本识别方法进行文本识别；获取所述文本特征的校正文本。 12.一种模型训练装置，包括：获取模块，获取目标图像的图像特征和文本特征；融合模块，融合所述图像特征和文本特征，得到所述目标图像的图文特征；训练模块，基于所述图文特征和所述文本特征的校正文本标签，对文本校正模型进行训练，所述文本校正模型用于对所述文本特征进行校正。 13.一种文本识别装置，包括：提取模块，对待识别图像进行特征提取，得到所述待识别图像的图像特征；融合模块，融合所述图像特征和所述待识别图像的文本特征，得到所述待识别图像的图文特征；校正模块，基于所述图文特征输入到文本校正模型，得到所述文本特征的校正文本，所述文本校正模型利用根据权利要求1 ‑6中任一项所述的方法训练得到。 14.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1‑10中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114495087 A 3

专利 模型训练和文本识别方法、装置以及存储介质

专利模型训练和文本识别方法、装置以及存储介质