全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210110387.0 (22)申请日 2022.01.28 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 李煜林 钦夏孟 章成全 姚锟  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 鄢功军 (51)Int.Cl. G06V 30/40(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01) G06V 30/18(2022.01) G06V 10/82(2022.01) (54)发明名称 文本识别方法、 装置、 电子设备和存 储介质 (57)摘要 本公开提供了一种文本识别方法, 涉及人工 智能技术领域, 尤其涉及深度学习技术和计算机 视觉技术。 具体实现方案为: 根据待处理图像的 文本特征, 得到文本特征图; 对待处理图像进行 视觉特征提取, 得到视觉特征; 根据文本特征图 和视觉特征, 得到待处理图像中的融合文档特 征; 以及根据融合文档特征, 识别待处理图像中 的文本。 本公开还提供了一种文本识别装置、 电 子设备和存 储介质。 权利要求书3页 说明书9页 附图5页 CN 114445833 A 2022.05.06 CN 114445833 A 1.一种文本识别方法, 包括: 根据待处 理图像的文本特 征, 得到文本特 征图; 对所述待处 理图像进行视 觉特征提取, 得到 视觉特征; 根据所述文本特 征图和所述视 觉特征, 得到所述待处 理图像中的融合文档特 征; 以及 根据所述融合文档特 征, 识别所述待处 理图像中的文本 。 2.根据权利要求1所述的方法, 还 包括: 确定所述待处 理图像中的至少一个文本区域; 以及 针对每个文本区域, 进行文本特 征提取, 得到所述待处 理图像的文本特 征。 3.根据权利要求1或2所述的方法, 其中, 所述文本特征包括多个文本特征, 每个文本特 征与所述待处理图像的一个文本区域相对应; 所述根据待处理图像的文本特征, 得到文本 特征图包括: 针对每个文本特 征, 对所述每 个文本特 征进行处 理, 得到经处 理的文本特 征; 以及 根据所述每个文本特征的对应文本区域在所述待处理图像中的位置, 将所述经处理 的 文本特征添加到所述文本特 征图的对应位置处; 其中, 所述经处理的文本特征的维度、 所述文本特征图的维度与所述视觉特征的维度 彼此一致。 4.根据权利要求3所述的方法, 其中, 所述对所述每个文本特征进行处理, 得到经处理 的文本特 征包括: 利用全连接层处 理每个文本特 征, 得到经处 理的文本特 征。 5.根据权利要求1所述的方法, 其中, 所述对所述待处理图像进行视觉特征提取, 得到 视觉特征包括: 确定所述待处 理图像的图像特 征; 根据所述图像特 征, 确定所述待处 理图像的空间特 征; 以及 基于所述图像特 征和所述空间特 征, 得到所述待处 理图像的视 觉特征。 6.根据权利要求5所述的方法, 其中, 所述根据图像特征, 确定所述待处理图像的空间 特征包括: 根据所述图像特 征, 确定所述图像特 征的对应位置信息; 以及 将所述对应位置信息编码为空间特 征; 其中, 所述空间特 征的维度与所述图像特 征的维度一 致。 7.根据权利要求6所述的方法, 其中, 所述将所述对应位置信息编码为空间特 征包括: 利用全连接层处 理所述对应位置信息, 得到所述空间特 征。 8.根据权利要求1所述的方法, 其中, 所述根据所述融合文档特征, 识别所述待处理图 像中的文本包括: 对所述融合文档特 征进行编码, 得到编码的融合文档特 征; 根据所述编码的融合文档特 征, 确定所述待处 理图像的语义特 征; 以及 根据所述语义特 征, 识别所述待处 理图像中的文本 。 9.一种文本识别装置, 包括: 第一获得模块, 用于根据待处 理图像的文本特 征, 得到文本特 征图;权 利 要 求 书 1/3 页 2 CN 114445833 A 2视觉特征提取模块, 用于对所述待处 理图像进行视 觉特征提取, 得到 视觉特征; 第二获得模块, 用于根据所述文本特征图和所述视觉特征, 得到所述待处理图像中的 融合文档特 征; 以及 识别模块, 用于根据所述融合文档特 征, 识别所述待处 理图像中的文本 。 10.根据权利要求9所述的装置, 还 包括: 确定模块, 用于确定所述待处 理图像中的至少一个文本区域; 以及 文本特征提取模块, 用于针对每个文本区域, 进行文本特征提取, 得到所述待处理图像 的文本特 征。 11.根据权利要求9或10所述的装置, 其中, 所述文本特征包括多个文本特征, 每个文本 特征与所述待处 理图像的一个文本区域相对应; 所述第一获得模块包括: 处理子模块, 用于针对每个文本特征, 对所述每个文本特征进行处理, 得到经处理的文 本特征; 以及 添加子模块, 用于根据所述每个文本特征的对应文本区域在所述待处理图像中的位 置, 将所述经处 理的文本特 征添加到所述文本特 征图的对应位置处; 其中, 所述经处理的文本特征的维度、 所述文本特征图的维度与所述视觉特征的维度 彼此一致。 12.根据权利要求1 1所述的装置, 其中, 所述处 理子模块包括: 处理单元, 用于利用全连接层处 理每个文本特 征, 得到经处 理的文本特 征。 13.根据权利要求9所述的装置, 其中, 所述视 觉特征提取模块包括: 第一确定 子模块, 用于确定所述待处 理图像的图像特 征; 第二确定 子模块, 用于根据所述图像特 征, 确定所述待处 理图像的空间特 征; 以及 获得子模块, 用于基于所述图像特征和所述空间特征, 得到所述待处理图像的视觉特 征。 14.根据权利要求13所述的装置, 其中, 所述第二确定 子模块包括: 确定单元, 用于根据所述图像特 征, 确定所述图像特 征的对应位置信息; 以及 编码单元, 用于将所述对应位置信息编码为空间特 征; 其中, 所述空间特 征的维度与所述图像特 征的维度一 致。 15.根据权利要求14所述的装置, 其中, 所述编码单 元还用于: 利用全连接层处 理所述对应位置信息, 得到所述空间特 征。 16.根据权利要求9所述的装置, 其中, 所述识别模块包括: 编码子模块, 用于对所述融合文档特 征进行编码, 得到编码的融合文档特 征; 第三确定子模块, 用于根据所述编码的融合文档特征, 确定所述待处理图像的语义特 征; 以及 识别子模块, 用于根据所述语义特 征, 识别所述待处 理图像中的文本 。 17.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1至8中任一项所述的方法。权 利 要 求 书 2/3 页 3 CN 114445833 A 3

.PDF文档 专利 文本识别方法、装置、电子设备和存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本识别方法、装置、电子设备和存储介质 第 1 页 专利 文本识别方法、装置、电子设备和存储介质 第 2 页 专利 文本识别方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。