全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210067373.5 (22)申请日 2022.01.20 (71)申请人 北京字节跳动网络技 术有限公司 地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人 蔡悦 黄灿  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 温易娜 (51)Int.Cl. G06V 30/18(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本识别方法、 装置、 可读介质及电子设备 (57)摘要 本公开涉及一种文本识别方法、 装置、 可读 介质及电子设备, 所述方法包括: 获取待识别的 文本图像; 通过预先训练的文本识别模型确定文 本图像对应的文本内容, 其中, 文本识别模型用 于通过如下方式确定文本图像对应的文本内容: 对文本图像进行特征提取, 得到第一文本特征图 像; 针对第一文本特征图像中的每个第一图像子 区域进行特征缩放, 得到第二文本特征图像, 并 根据第二文本特征图像生 成注意力图; 根据注意 力图在第一文本特征图像中确定目标第一图像 子区域, 并对目标第一图像子区域进行文本识 别, 确定文本图像对应的文本内容。 通过直接将 整个文本图像输入文本识别模型进行端到端的 文本识别, 减少文本识别的计算量, 提高文本识 别的效率以及可靠性。 权利要求书2页 说明书13页 附图4页 CN 114495111 A 2022.05.13 CN 114495111 A 1.一种文本识别方法, 其特 征在于, 所述方法包括: 获取待识别的文本图像; 通过预先训练的文本识别模型确定所述文本 图像对应的文本内容, 其中, 所述文本识 别模型用于通过如下 方式确定所述文本图像对应的文本内容: 对所述文本 图像进行特征提取, 得到第一文本特征图像, 所述第一文本特征图像包括 多个第一图像子区域; 针对所述第 一文本特征图像中的每个所述第 一图像子区域进行特征缩放, 得到第 二文 本特征图像, 并根据所述第二文本特征图像生成注意力图, 所述注意力图包括对应有注意 力值的多个第二图像子区域, 所述第二图像子区域的数量与所述第一图像子区域的数量相 同, 所述注意力值用于表征所述第二图像子区域对应的第一图像子区域中出现文字的概 率; 根据所述注意力图在所述第 一文本特征图像中确定目标第 一图像子区域, 并对所述目 标第一图像子区域进行文本识别, 确定所述文本图像对应的文本内容。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述注意力图在所述第 一文本特 征图像中确定目标第一图像子区域, 包括: 根据所述注意力图中第二图像子区域与所述第一文本特征图像中第一图像子区域间 的映射关系, 确定每 个所述第一图像子区域对应的注意力值; 在所述第一文本特征图像中, 将所述注意力值大于预设阈值的第 一图像子区域确定为 目标第一图像子区域, 或者确定所述注意力值大于预设阈值的第一图像子区域的最小外接 矩形, 并将所述 最小外接矩形确定为目标第一图像子区域。 3.根据权利要求1所述的方法, 其特征在于, 所述文本识别模型包括卷积神经网络和池 化层, 所述针对所述第一文本特征图像中的每个所述第一图像子区域进行特征缩放, 得到 第二文本特 征图像, 包括: 通过所述卷积神经网络对所述第一文本特征图像中的每个所述第一图像子区域进行 卷积处理, 得到卷积图像, 并通过所述池化层 对所述卷积图像进 行全局平均池化处理, 得到 第二文本特征图像, 其中所述第二文本特征图像的像素值与所述第一图像子区域的数量相 等。 4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述文本识别模型包括编码模 块、 映射模块和解码模块, 所述文本识别模型对所述文本图像的识别过程为循环识别, 且每 次识别过程用于识别所述文本图像中的部 分文本内容, 直至所述文本识别模型识别出所述 文本图像中的全部文本内容, 所述 根据所述第二文本特 征图像生成注意力图, 包括: 确定已识别文本字符对应的字符嵌入特征向量, 并将所述第 二文本特征图像以及所述 字符嵌入特 征向量输入所述编码模块, 生成注意力图; 所述根据 所述注意力图在所述第 一文本特征图像中确定目标第 一图像子区域, 并对所 述目标第一图像子区域进行文本识别, 确定所述文本图像对应的文本内容, 包括: 将所述注意力图输入所述映射模块, 以在所述第 一文本特征图像中确定目标第 一图像 子区域, 并将所述目标第一图像子区域的图像特征和所述字符嵌入特征向量输入所述解码 模块, 得到 本次识别过程识别到的、 所述文本图像对应的文本内容。 5.根据权利要求 4所述的方法, 其特 征在于, 所述文本识别模型的训练过程包括:权 利 要 求 书 1/2 页 2 CN 114495111 A 2获取标注有样本文本识别结果的样本图像, 所述样本文本识别结果用于表征所述样本 图像包括的文本内容; 将所述样本图像输入所述文本识别模型, 得到所述文本识别模型对所述样本图像的预 测文本识别结果, 并基于所述预测文本识别结果和所述样本文本识别结果计算损失函数, 所述损失函数用于表征 所述预测文本识别结果和所述样本文本识别结果之间的差异; 基于所述损失函数的计算结果调整所述编码模块、 所述映射模块和所述 解码模块。 6.根据权利要求4所述的方法, 其特征在于, 所述将所述第 二文本特征图像以及所述字 符嵌入特 征向量输入所述编码模块, 生成注意力图, 包括: 对所述第二文本特征图像进行线性变换, 得到第一线性特征, 并对所述字符嵌入特征 向量进行线性变换, 得到第二线性特 征; 根据所述第一线性特 征和所述第二线性特 征生成注意力图。 7.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述文本识别模型包括下采样神 经网络, 所述对所述文本图像进行 特征提取, 得到第一文本特 征图像, 包括: 将所述文本图像输入所述下采样神经网络; 通过所述下采样神经网络对所述文本 图像进行N倍下采样得到第一文本特征图像, 所 述文本图像的尺寸 为所述第一文本特 征图像的尺寸的N 倍。 8.一种文本识别装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待识别的文本图像; 识别模块, 用于通过预训练的文本识别模型确定所述文本图像对应的文本内容, 其中, 所述文本识别模型用于通过如下模块确定所述文本图像对应的文本内容: 特征提取子模块, 用于对所述文本图像进行特征提取, 得到第一文本特征图像, 所述第 一文本特征图像包括多个第一图像子区域, 针对所述第一文本特征图像中的每个所述第一 图像子区域进行 特征缩放, 得到第二文本特 征图像; 识别子模块, 用于根据所述第二文本特征图像生成注意力图, 根据所述注意力图在所 述第一文本特征图像中确定目标第一图像子区域, 并对所述目标第一图像子区域进行文本 识别, 确定所述文本图像对应的文本内容, 所述注意力图包括对应有注意力值的多个第二 图像子区域, 所述第二图像子区域的数量与所述第一图像子区域的数量相同, 所述注意力 值用于表征 所述第二图像子区域对应的第一图像子区域中出现文字的概 率。 9.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执行 时实现权利要求1 ‑7中任一项所述方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 存储装置, 其上存 储有计算机程序; 处理装置, 用于执行所述存储装置 中的所述计算机程序, 以实现权利要求1 ‑7中任一项 所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114495111 A 3

.PDF文档 专利 文本识别方法、装置、可读介质及电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本识别方法、装置、可读介质及电子设备 第 1 页 专利 文本识别方法、装置、可读介质及电子设备 第 2 页 专利 文本识别方法、装置、可读介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:17:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。