全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210032616.1 (22)申请日 2022.01.12 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 毛晓飞 黄灿  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 贺晓蕾 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01)G06K 9/62(2022.01) G06V 30/262(2022.01) (54)发明名称 文本识别的方法、 装置、 可读介质和电子设 备 (57)摘要 本公开涉及一种文本识别的方法、 装置、 可 读介质和电子设备, 涉及计算机技术领域, 包括: 获取待识别的文本行图片; 将该文本行图片输入 预先训练的文本识别模型, 以得到该文本识别模 型输出的该文本行图片中的文本; 其中, 该文本 识别模型是根据第一目标字符对预设训练模型 进行训练得到的, 该第一目标字符是将第一语义 融合特征进行字符转换后得到的字符, 该第一语 义融合特征是将用于训练的样本图片中的第一 目标序列特征与该样本图片的第一语义特征进 行融合处理得到的特征, 该第一语义特征是根据 该第一目标序列特征得到的特征。 这样, 能够使 得文本行图片特征提取的更完整, 从而提高了文 本图像识别的准确率。 权利要求书2页 说明书11页 附图4页 CN 114495081 A 2022.05.13 CN 114495081 A 1.一种文本识别的方法, 其特 征在于, 所述方法包括: 获取待识别的文本行图片; 将所述文本行图片输入预先训练的文本识别模型, 以得到所述文本识别模型输出的所 述文本行图片中的文本; 其中, 所述文本识别模型是根据第一目标字符对预设训练模型进行训练得到的, 所述 第一目标字符是将第一语义融合特征进行字符转换后得到的字符, 所述第一语义融合特征 是将用于训练的样本图片中的第一目标序列特征与所述样本图片的第一语义特征进行融 合处理得到的特 征, 所述第一语义特 征是根据所述第一目标序列特 征得到的特 征。 2.根据权利要求1所述的方法, 其特征在于, 所述文本识别模型是通过以下方式训练得 到: 获取多个用于训练的样本图片; 从所述样本图片中获取第一目标序列特 征; 根据所述第一目标序列特 征获取所述样本图片的第一语义特 征; 将所述第一目标序列特征与所述第一语义特征进行融合, 得到所述第一语义融合特 征; 将所述第一语义融合特 征转换为所述第一目标字符; 根据所述第一目标字符对预设训练模型进行训练, 得到所述文本识别模型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一目标序列特征获取所述 样本图片的第一语义特 征包括: 将所述第一目标序列特 征转换为第一待处 理字符; 从所述第一待处 理字符中提取 所述第一语义特 征。 4.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 获取所述第一待处 理字符的置信度; 所述从所述第一待处 理字符中提取 所述语义特 征包括: 从所述置信度 大于或者等于预设置信度阈值的所述第 一待处理字符中, 提取所述第 一 语义特征。 5.根据权利要求2所述的方法, 其特征在于, 所述将所述第 一目标序列 特征与所述第一 语义特征进行融合, 得到所述第一语义融合特 征包括: 将所述第一目标序列特 征和所述第一语义特 征相加, 得到所述第一语义融合特 征。 6.根据权利要求2所述的方法, 其特征在于, 所述从所述样本图片中获取第 一目标序列 特征包括: 从所述样本图片中提取第 一待编码序列 特征, 并对所述第 一待编码序列特征进行编码 处理, 得到所述第一目标序列特 征。 7.根据权利要求6所述的方法, 其特征在于, 所述将所述第 一语义融合特征转换为所述 第一目标字符包括: 对所述第一语义融合特征进行解码处理, 并将解码后的第 一语义融合特征转换为对应 的所述第一目标字符。 8.根据权利要求1至7中任一项所述的方法, 其特征在于, 所述文本识别模型包括特征 提取模型、 至少一个语义融合模型、 解码模型以及第一全连接层, 其中, 在至少一个语义融权 利 要 求 书 1/2 页 2 CN 114495081 A 2合模型为多个的情况 下, 多个所述语义融合模型依次串联耦合; 所述特征提取模型, 用于从输入的所述文本行图片中获取第二待编码序列特 征; 所述语义融合模型, 用于对所述特征提取模型输出的第 二待编码序列 特征进行编码处 理, 得到第二 目标序列特征, 并根据所述第二 目标序列特征获取所述文本行图片的第二语 义特征, 并将所述第二 目标序列特征与所述第二语义特征进行融合, 得到所述第二语义融 合特征; 所述解码模型, 用于对所述语义融合模型输出的第二语义融合特 征进行解码; 所述第一全连接层, 用于将所述解码模型输出的解码后的第二语义融合特征, 转换为 第二目标字符。 9.根据权利要求8所述的方法, 其特征在于, 所述语义融合模型包括: 编码子模型、 第二 全连接层和语言子模型; 所述编码子模型, 用于对所述特征提取模型输出的第二待编码序列特征进行编码处 理, 得到第二目标序列特 征; 所述第二全连接层, 用于将所述编码子模型输出的第 二目标序列特征转换为第 二待处 理字符; 所述语言子模型, 用于从所述第二全连接层输出的所述第二待处理字符中, 提取所述 第二语义特 征。 10.一种文本识别的装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待识别的文本行图片; 识别模块, 用于将所述文本行图片输入预先训练的文本识别模型, 以得到所述文本识 别模型输出的所述文本行图片中的文本; 其中, 所述文本识别模型是根据第一目标字符对预设训练模型进行训练得到的, 所述 第一目标字符是将第一语义融合特征进行字符转换后得到的字符, 所述第一语义融合特征 是将用于训练的样本图片中的第一目标序列特征与所述样本图片的第一语义特征进行融 合处理得到的特 征, 所述第一语义特 征是根据所述第一目标序列特 征得到的特 征。 11.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执 行时实现权利要求1至9中任一项所述方法的步骤。 12.一种电子设备, 其特 征在于, 包括: 存储装置, 其上存 储有计算机程序; 处理装置, 用于执行所述存储装置中的所述计算机程序, 以实现权利要求1至9中任一 项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114495081 A 3

.PDF文档 专利 文本识别的方法、装置、可读介质和电子设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本识别的方法、装置、可读介质和电子设备 第 1 页 专利 文本识别的方法、装置、可读介质和电子设备 第 2 页 专利 文本识别的方法、装置、可读介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:17:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。