全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210138219.2 (22)申请日 2022.02.15 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310051 浙江省杭州市滨江区长河街 道网商路69 9号4号楼5楼5 08室 (72)发明人 达铖 王鹏 姚聪  (74)专利代理 机构 北京合智同创知识产权代理 有限公司 1 1545 专利代理师 李杰 杨雷 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/146(2022.01) G06V 10/422(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01)G06K 9/62(2022.01) (54)发明名称 模型训练和文本识别方法、 装置以及 存储介 质 (57)摘要 本发明实施例提供了一种模型训练和文本 识别方法、 装置以及存储介质。 所述模型训练方 法包括: 获取目标图像的图像特征和文本特征; 融合所述图像特征和文本特征, 得到所述目标图 像的图文特征; 基于所述图文特征和所述文本特 征的校正文本标签, 对文本校正模型进行训练, 所述文本校正模型用于对所述文本特征进行校 正。 在本发明实施例的方案中, 图文特征中融合 了图像特征和文本特征, 使 得融合特征中包括了 更多的图像特征所表征的上下文语义因素, 因 此, 基于融合特征, 对文本 特征校正, 提高了文本 校正模型的校正能力, 进而提高了文本识别效 果。 权利要求书2页 说明书11页 附图4页 CN 114495087 A 2022.05.13 CN 114495087 A 1.一种模型训练方法, 包括: 获取目标图像的图像特 征和文本特 征; 融合所述图像特 征和文本特 征, 得到所述目标图像的图文特 征; 基于所述图文特征和所述文本特征的校正文本标签, 对文本校正模型进行训练, 所述 文本校正模型用于对所述文本特 征进行校正。 2.根据权利要求1所述的方法, 其中, 所述获取目标图像的图像特 征和文本特 征, 包括: 对目标图像进行 特征提取, 得到图像特 征; 对所述图像特 征进行文本识别, 得到文本特 征。 3.根据权利要求1所述的方法, 其中, 所述融合所述图像特征和文本特征, 得到所述目 标图像的图文特 征, 包括: 将所述图像特征的维度表示和所述文本特征的维度表示进行拼接, 得到所述目标图像 的图文特 征。 4.根据权利要求1所述的方法, 其中, 所述文本校正模型包括上下文融合层和校正层, 所述上下文融合层的输出 连接到所述校正层的输入, 所述基于所述图文特征和所述文本特征的校正文本标签, 对文本校正模型进行训练, 包括: 基于所述图文特征作为所述上下文融合层的输入, 并且基于所述校正文本标签作为所 述校正层的输出, 训练所述文本校正模型, 其中, 所述上下文融合层用于对所述文本特征和所述图像特征进行上下文融合, 所述 校正层用于对上 下文融合后的图文特 征进行校正。 5.根据权利要求4所述的方法, 其中, 所述校正层包括删除操作模块和插入操作模块, 所述删除操作模块的输出连接到所述插入操作模块的输入, 所述删除操作模块的输入作为 所述校正层的输入, 所述插 入操作模块的输出作为所述校正层的输出, 所述删除操作模块用于对上 下文融合后的图文特 征进行字符删除, 所述插入操作模块用于对删除字符的图文特 征进行字符插 入。 6.根据权利要求5所述的方法, 其中, 所述插入操作模块包括占位符添加模块和字符预 测模块, 所述删除操作模块的输入作为所述插入操作模块的输入, 所述删除操作模块的输 出连接到所述占位符添加模块的输入, 所述占位符添加模块的输出作为所述插入操作模块 的输出, 其中, 所述占位符添加模块用于对删除字符的图文特 征进行占位符添加, 所述字符预测模块用于对添加占位符的图文特 征中的占位符进行字符预测。 7.一种文本识别方法, 包括: 对待识别图像进行 特征提取, 得到所述待识别图像的图像特 征; 融合所述图像特 征和所述待识别图像的文本特 征, 得到所述待识别图像的图文特 征; 基于所述图文特征输入到文本校正模型, 得到所述文本特征的校正文本, 所述文本校 正模型利用根据权利要求1 ‑6中任一项所述的方法训练得到 。 8.根据权利要求7所述的方法, 其中, 所述基于所述图文特征输入到文本校正模型, 得 到所述文本特 征的校正文本, 包括: 基于所述图文特 征输入到文本校正模型, 得到所述文本特 征的初始校正文本;权 利 要 求 书 1/2 页 2 CN 114495087 A 2基于所述初始校正文本替代所述文本特 征, 更新所述图文特 征。 9.根据权利要求7 所述的方法, 其中, 所述方法还 包括: 基于所述待识别图像的图像特 征进行文本识别, 得到所述待识别图像的文本特 征。 10.根据权利要求7 所述的方法, 其中, 所述方法还 包括: 获取识别服 务请求, 所述识别服 务请求中包括所述待识别图像; 响应所述识别服 务请求, 返回所述文本特 征的校正文本 。 11.一种文本识别方法、 包括: 获取人机交互界面中针对待识别图像输入的触发指令; 响应所述触发指令, 基于所述待识别图像, 生成识别服 务请求; 发送所述识别服务请求, 以基于权利要求7 ‑10中任一项所述的文本识别方法进行文本 识别; 获取所述文本特 征的校正文本 。 12.一种模型训练装置, 包括: 获取模块, 获取目标图像的图像特 征和文本特 征; 融合模块, 融合所述图像特 征和文本特 征, 得到所述目标图像的图文特 征; 训练模块, 基于所述图文特征和所述文本特征的校正文本标签, 对文本校正模型进行 训练, 所述文本校正模型用于对所述文本特 征进行校正。 13.一种文本识别装置, 包括: 提取模块, 对待识别图像进行 特征提取, 得到所述待识别图像的图像特 征; 融合模块, 融合所述图像特征和所述待识别图像的文本特征, 得到所述待识别图像的 图文特征; 校正模块, 基于所述图文特征输入到文本校正模型, 得到所述文本特征的校正文本, 所 述文本校正模型利用根据权利要求1 ‑6中任一项所述的方法训练得到 。 14.一种计算机存储介质, 其上存储有计算机程序, 该程序被处理器执行时实现如权利 要求1‑10中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114495087 A 3

.PDF文档 专利 模型训练和文本识别方法、装置以及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练和文本识别方法、装置以及存储介质 第 1 页 专利 模型训练和文本识别方法、装置以及存储介质 第 2 页 专利 模型训练和文本识别方法、装置以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。