专利文本识别方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210110387.0 (22)申请日 2022.01.28 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人李煜林　钦夏孟　章成全　姚锟　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师鄢功军 (51)Int.Cl. G06V 30/40(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01) G06V 30/18(2022.01) G06V 10/82(2022.01) (54)发明名称文本识别方法、装置、电子设备和存储介质 (57)摘要本公开提供了一种文本识别方法，涉及人工智能技术领域，尤其涉及深度学习技术和计算机视觉技术。具体实现方案为：根据待处理图像的文本特征，得到文本特征图；对待处理图像进行视觉特征提取，得到视觉特征；根据文本特征图和视觉特征，得到待处理图像中的融合文档特征；以及根据融合文档特征，识别待处理图像中的文本。本公开还提供了一种文本识别装置、电子设备和存储介质。权利要求书3页说明书9页附图5页 CN 114445833 A 2022.05.06 CN 114445833 A 1.一种文本识别方法，包括：根据待处理图像的文本特征，得到文本特征图；对所述待处理图像进行视觉特征提取，得到视觉特征；根据所述文本特征图和所述视觉特征，得到所述待处理图像中的融合文档特征；以及根据所述融合文档特征，识别所述待处理图像中的文本。 2.根据权利要求1所述的方法，还包括：确定所述待处理图像中的至少一个文本区域；以及针对每个文本区域，进行文本特征提取，得到所述待处理图像的文本特征。 3.根据权利要求1或2所述的方法，其中，所述文本特征包括多个文本特征，每个文本特征与所述待处理图像的一个文本区域相对应；所述根据待处理图像的文本特征，得到文本特征图包括：针对每个文本特征，对所述每个文本特征进行处理，得到经处理的文本特征；以及根据所述每个文本特征的对应文本区域在所述待处理图像中的位置，将所述经处理的文本特征添加到所述文本特征图的对应位置处；其中，所述经处理的文本特征的维度、所述文本特征图的维度与所述视觉特征的维度彼此一致。 4.根据权利要求3所述的方法，其中，所述对所述每个文本特征进行处理，得到经处理的文本特征包括：利用全连接层处理每个文本特征，得到经处理的文本特征。 5.根据权利要求1所述的方法，其中，所述对所述待处理图像进行视觉特征提取，得到视觉特征包括：确定所述待处理图像的图像特征；根据所述图像特征，确定所述待处理图像的空间特征；以及基于所述图像特征和所述空间特征，得到所述待处理图像的视觉特征。 6.根据权利要求5所述的方法，其中，所述根据图像特征，确定所述待处理图像的空间特征包括：根据所述图像特征，确定所述图像特征的对应位置信息；以及将所述对应位置信息编码为空间特征；其中，所述空间特征的维度与所述图像特征的维度一致。 7.根据权利要求6所述的方法，其中，所述将所述对应位置信息编码为空间特征包括：利用全连接层处理所述对应位置信息，得到所述空间特征。 8.根据权利要求1所述的方法，其中，所述根据所述融合文档特征，识别所述待处理图像中的文本包括：对所述融合文档特征进行编码，得到编码的融合文档特征；根据所述编码的融合文档特征，确定所述待处理图像的语义特征；以及根据所述语义特征，识别所述待处理图像中的文本。 9.一种文本识别装置，包括：第一获得模块，用于根据待处理图像的文本特征，得到文本特征图；权　利　要　求　书 1/3 页 2 CN 114445833 A 2视觉特征提取模块，用于对所述待处理图像进行视觉特征提取，得到视觉特征；第二获得模块，用于根据所述文本特征图和所述视觉特征，得到所述待处理图像中的融合文档特征；以及识别模块，用于根据所述融合文档特征，识别所述待处理图像中的文本。 10.根据权利要求9所述的装置，还包括：确定模块，用于确定所述待处理图像中的至少一个文本区域；以及文本特征提取模块，用于针对每个文本区域，进行文本特征提取，得到所述待处理图像的文本特征。 11.根据权利要求9或10所述的装置，其中，所述文本特征包括多个文本特征，每个文本特征与所述待处理图像的一个文本区域相对应；所述第一获得模块包括：处理子模块，用于针对每个文本特征，对所述每个文本特征进行处理，得到经处理的文本特征；以及添加子模块，用于根据所述每个文本特征的对应文本区域在所述待处理图像中的位置，将所述经处理的文本特征添加到所述文本特征图的对应位置处；其中，所述经处理的文本特征的维度、所述文本特征图的维度与所述视觉特征的维度彼此一致。 12.根据权利要求1 1所述的装置，其中，所述处理子模块包括：处理单元，用于利用全连接层处理每个文本特征，得到经处理的文本特征。 13.根据权利要求9所述的装置，其中，所述视觉特征提取模块包括：第一确定子模块，用于确定所述待处理图像的图像特征；第二确定子模块，用于根据所述图像特征，确定所述待处理图像的空间特征；以及获得子模块，用于基于所述图像特征和所述空间特征，得到所述待处理图像的视觉特征。 14.根据权利要求13所述的装置，其中，所述第二确定子模块包括：确定单元，用于根据所述图像特征，确定所述图像特征的对应位置信息；以及编码单元，用于将所述对应位置信息编码为空间特征；其中，所述空间特征的维度与所述图像特征的维度一致。 15.根据权利要求14所述的装置，其中，所述编码单元还用于：利用全连接层处理所述对应位置信息，得到所述空间特征。 16.根据权利要求9所述的装置，其中，所述识别模块包括：编码子模块，用于对所述融合文档特征进行编码，得到编码的融合文档特征；第三确定子模块，用于根据所述编码的融合文档特征，确定所述待处理图像的语义特征；以及识别子模块，用于根据所述语义特征，识别所述待处理图像中的文本。 17.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。权　利　要　求　书 2/3 页 3 CN 114445833 A 3

专利 文本识别方法、装置、电子设备和存储介质

专利文本识别方法、装置、电子设备和存储介质