说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210541217.8 (22)申请日 2022.05.19 (71)申请人 北京世纪好未来教育科技有限公司 地址 100089 北京市海淀区中关村大街32 号蓝天和盛大厦1702- 03室 (72)发明人 胡飞 李云良 王智浩  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 付宏艳 (51)Int.Cl. G06V 30/10(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 一种文本识别方法、 装置、 设备及 介质 (57)摘要 本公开涉及一种文本识别方法、 装置、 设备 及介质, 该方法包括: 获取包含目标语句的待处 理图像; 目标语句由多个初始字符组成; 基于待 处理图像, 获取一组字 符图像以及与目标语句对 应的生成语句; 其中, 每张字符图像包括一个初 始字符; 对各字符图像进行特征提取, 得到各初 始字符对应的图像特征; 对生 成语句进行特征提 取, 得到生成语句中各字符对应的文本特征; 基 于图像特征和文本特征, 得到目标语句的文本识 别结果。 本公开能够提高文本识别结果的准确 性。 权利要求书3页 说明书11页 附图4页 CN 114973247 A 2022.08.30 CN 114973247 A 1.一种文本识别方法, 其特 征在于, 包括: 获取包含目标语句的待处 理图像; 所述目标语句由多个初始字符组成; 基于所述待处理图像, 获取一组字符图像以及与所述目标语句对应的生成语句; 其中, 每张字符图像包括 一个初始字符; 对各字符图像进行 特征提取, 得到各初始字符对应的图像特 征; 对所述生成语句进行 特征提取, 得到所述 生成语句中各字符对应的文本特 征; 基于所述图像特 征和所述文本特 征, 得到所述目标语句的文本识别结果。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取图文处理网络, 所述图文处理网络的输入为所述字符图像和所述生成语句, 输出 为所述文本识别结果。 3.根据权利要求2所述的方法, 其特征在于, 所述图文处理网络包括: 图像特征提取模 块; 所述对各字符图像进行 特征提取, 包括: 通过所述图像特 征提取模块分别对各字符图像中的初始字符进行 形状特征的提取。 4.根据权利要求2所述的方法, 其特征在于, 所述图文处理网络包括: 文本特征提取模 块; 所述对所述 生成语句进行 特征提取, 包括: 通过所述文本特 征提取模块对所述 生成语句进行 上下文特征的提取。 5.根据权利要求2所述的方法, 其特征在于, 所述图文处理网络包括: 特征融合模块和 分类器; 所述基于所述图像特征和所述文本特征, 得到所述目标语句的文本识别结果, 包 括: 通过所述特征融合模块对所述图像特 征和所述文本特 征进行融合, 得到融合特 征; 通过所述分类 器对所述融合特 征进行文本识别, 得到所述目标语句的文本识别结果。 6.根据权利要求5所述的方法, 其特征在于, 所述通过所述特征融合模块对所述图像特 征和所述文本特 征进行融合, 包括: 通过所述特征融合模块按照以下公式对所述图像特征和所述文本特征进行融合, 得到 融合特征: 其中, gi表示第i个所述初始字符的图像特征, vi表示所述生成语句中与第i个所述初始 字符对应的生成字符的文本特征, α和β 分别表示预设的参数, W表 示所述特征融合模块的三 维张量参数, b表示所述特 征融合模块的偏置项, H (vi, gi) 表示所述融合特 征。 7.根据权利要求5所述的方法, 其特征在于, 所述通过所述分类器对所述融合特征进行 文本识别, 得到所述目标语句的文本识别结果, 包括: 通过所述分类器对所述初始字符对应的融合特征进行文本识别, 得到与所述初始字符 对应的目标字符; 根据预设字典获取生成字符的第 一置信分值和所述目标字符的第 二置信分值; 所述生 成字符是 所述生成语句中与所述初始字符对应的字符; 根据所述第一置信分值和所述第二置信分值确定所述初始字符的字符识别结果; 将多个初始字符的字符识别结果 生成所述目标语句的文本识别结果。 8.根据权利要求7所述的方法, 其特征在于, 所述根据所述第 一置信分值和所述第 二置权 利 要 求 书 1/3 页 2 CN 114973247 A 2信分值确定所述初始字符的字符识别结果, 包括: 按照以下公式并根据所述第一置信分值和所述第二置信分值确定所述初始字符的字 符识别结果: 其中, oik表示所述目标字符的第二置信分值, rij表示所述生成字符的第一置信分值, thOk表示所述目标字 符在所述字典中的置信度阈值, thrj和thrmj表示所述字典 中两个字 符 之间差异性的区间端点值, j和k分别表示所述生成字 符和所述目标字符在所述字典中的索 引。 9.根据权利要求2所述的方法, 其特 征在于, 所述图文处 理网络的训练过程包括: 获取多张第一图像和与所述第一图像一一对应的第二图像; 其中, 所述第一图像中包 括基准字符, 所述第二图像中包括与所述基准字符形近的对照字符; 将所述基准字符和所述对照字符生成形近 字集; 从所述第一图像和所述第二图像中获取一组样本 图像; 其中, 各样本 图像中包括的第 一字符与预设的样本语句中的字符一 一匹配; 从所述形近字集中获取组成训练生成语句的多个第二字符; 其中, 各第二字符与所述 样本语句中的字符一 一匹配; 将所述一组样本图像和所述训练生成语句输入至待训练 的图文处理网络进行处理, 得 到文本预测结果; 根据所述样本语句和所述文本预测结果训练所述图文处 理网络。 10.根据权利要求9所述的方法, 其特 征在于, 所述方法还 包括: 按照所述样本图像为所述第 一图像或所述第 二图像, 以及所述第 二字符为所述基准字 符或者所述对照字符, 得到所述样本图像和所述第二字符 之间的多种组合模式; 确定所述组合模式之间的数据分配比例; 获取从所述形近 字集的基准字符中获取 所述第二字符的目标概 率; 根据所述目标概率和所述数据分配比例, 从所述第 一图像和所述第 二图像中获取所述 样本图像以及从所述形近 字集中获取 所述第二字符。 11.根据权利要求1所述的方法, 其特征在于, 所述基于所述待处理图像, 获取一组字符 图像, 包括: 对所述待处 理图像进行图像 语义分割, 得到一组以单个初始字符为单位的字符图像。 12.一种文本识别装置, 其特 征在于, 包括: 第一获取模块, 用于获取包含目标语句的待处理图像; 所述目标语句由多个初始字符 组成; 第二获取模块, 用于基于所述待处理图像, 获取一组字符图像以及与所述目标语句对 应的生成语句; 其中, 每张字符图像包括 一个初始字符; 图像特征提取模块, 用于对各字符图像进行特征提取, 得到各初始字符对应的图像特 征; 文本特征提取模块, 用于对所述生成语句进行特征提取, 得到所述生成语句中各字符权 利 要 求 书 2/3 页 3 CN 114973247 A 3

.PDF文档 专利 一种文本识别方法、装置、设备及介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本识别方法、装置、设备及介质 第 1 页 专利 一种文本识别方法、装置、设备及介质 第 2 页 专利 一种文本识别方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:46:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。