专利文本识别方法、装置、可读介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210067373.5 (22)申请日 2022.01.20 (71)申请人北京字节跳动网络技术有限公司地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人蔡悦　黄灿　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师温易娜 (51)Int.Cl. G06V 30/18(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本识别方法、装置、可读介质及电子设备 (57)摘要本公开涉及一种文本识别方法、装置、可读介质及电子设备，所述方法包括：获取待识别的文本图像；通过预先训练的文本识别模型确定文本图像对应的文本内容，其中，文本识别模型用于通过如下方式确定文本图像对应的文本内容：对文本图像进行特征提取，得到第一文本特征图像；针对第一文本特征图像中的每个第一图像子区域进行特征缩放，得到第二文本特征图像，并根据第二文本特征图像生成注意力图；根据注意力图在第一文本特征图像中确定目标第一图像子区域，并对目标第一图像子区域进行文本识别，确定文本图像对应的文本内容。通过直接将整个文本图像输入文本识别模型进行端到端的文本识别，减少文本识别的计算量，提高文本识别的效率以及可靠性。权利要求书2页说明书13页附图4页 CN 114495111 A 2022.05.13 CN 114495111 A 1.一种文本识别方法，其特征在于，所述方法包括：获取待识别的文本图像；通过预先训练的文本识别模型确定所述文本图像对应的文本内容，其中，所述文本识别模型用于通过如下方式确定所述文本图像对应的文本内容：对所述文本图像进行特征提取，得到第一文本特征图像，所述第一文本特征图像包括多个第一图像子区域；针对所述第一文本特征图像中的每个所述第一图像子区域进行特征缩放，得到第二文本特征图像，并根据所述第二文本特征图像生成注意力图，所述注意力图包括对应有注意力值的多个第二图像子区域，所述第二图像子区域的数量与所述第一图像子区域的数量相同，所述注意力值用于表征所述第二图像子区域对应的第一图像子区域中出现文字的概率；根据所述注意力图在所述第一文本特征图像中确定目标第一图像子区域，并对所述目标第一图像子区域进行文本识别，确定所述文本图像对应的文本内容。 2.根据权利要求1所述的方法，其特征在于，所述根据所述注意力图在所述第一文本特征图像中确定目标第一图像子区域，包括：根据所述注意力图中第二图像子区域与所述第一文本特征图像中第一图像子区域间的映射关系，确定每个所述第一图像子区域对应的注意力值；在所述第一文本特征图像中，将所述注意力值大于预设阈值的第一图像子区域确定为目标第一图像子区域，或者确定所述注意力值大于预设阈值的第一图像子区域的最小外接矩形，并将所述最小外接矩形确定为目标第一图像子区域。 3.根据权利要求1所述的方法，其特征在于，所述文本识别模型包括卷积神经网络和池化层，所述针对所述第一文本特征图像中的每个所述第一图像子区域进行特征缩放，得到第二文本特征图像，包括：通过所述卷积神经网络对所述第一文本特征图像中的每个所述第一图像子区域进行卷积处理，得到卷积图像，并通过所述池化层对所述卷积图像进行全局平均池化处理，得到第二文本特征图像，其中所述第二文本特征图像的像素值与所述第一图像子区域的数量相等。 4.根据权利要求1 ‑3任一项所述的方法，其特征在于，所述文本识别模型包括编码模块、映射模块和解码模块，所述文本识别模型对所述文本图像的识别过程为循环识别，且每次识别过程用于识别所述文本图像中的部分文本内容，直至所述文本识别模型识别出所述文本图像中的全部文本内容，所述根据所述第二文本特征图像生成注意力图，包括：确定已识别文本字符对应的字符嵌入特征向量，并将所述第二文本特征图像以及所述字符嵌入特征向量输入所述编码模块，生成注意力图；所述根据所述注意力图在所述第一文本特征图像中确定目标第一图像子区域，并对所述目标第一图像子区域进行文本识别，确定所述文本图像对应的文本内容，包括：将所述注意力图输入所述映射模块，以在所述第一文本特征图像中确定目标第一图像子区域，并将所述目标第一图像子区域的图像特征和所述字符嵌入特征向量输入所述解码模块，得到本次识别过程识别到的、所述文本图像对应的文本内容。 5.根据权利要求 4所述的方法，其特征在于，所述文本识别模型的训练过程包括：权　利　要　求　书 1/2 页 2 CN 114495111 A 2获取标注有样本文本识别结果的样本图像，所述样本文本识别结果用于表征所述样本图像包括的文本内容；将所述样本图像输入所述文本识别模型，得到所述文本识别模型对所述样本图像的预测文本识别结果，并基于所述预测文本识别结果和所述样本文本识别结果计算损失函数，所述损失函数用于表征所述预测文本识别结果和所述样本文本识别结果之间的差异；基于所述损失函数的计算结果调整所述编码模块、所述映射模块和所述解码模块。 6.根据权利要求4所述的方法，其特征在于，所述将所述第二文本特征图像以及所述字符嵌入特征向量输入所述编码模块，生成注意力图，包括：对所述第二文本特征图像进行线性变换，得到第一线性特征，并对所述字符嵌入特征向量进行线性变换，得到第二线性特征；根据所述第一线性特征和所述第二线性特征生成注意力图。 7.根据权利要求1 ‑3任一项所述的方法，其特征在于，所述文本识别模型包括下采样神经网络，所述对所述文本图像进行特征提取，得到第一文本特征图像，包括：将所述文本图像输入所述下采样神经网络；通过所述下采样神经网络对所述文本图像进行N倍下采样得到第一文本特征图像，所述文本图像的尺寸为所述第一文本特征图像的尺寸的N 倍。 8.一种文本识别装置，其特征在于，所述装置包括：获取模块，用于获取待识别的文本图像；识别模块，用于通过预训练的文本识别模型确定所述文本图像对应的文本内容，其中，所述文本识别模型用于通过如下模块确定所述文本图像对应的文本内容：特征提取子模块，用于对所述文本图像进行特征提取，得到第一文本特征图像，所述第一文本特征图像包括多个第一图像子区域，针对所述第一文本特征图像中的每个所述第一图像子区域进行特征缩放，得到第二文本特征图像；识别子模块，用于根据所述第二文本特征图像生成注意力图，根据所述注意力图在所述第一文本特征图像中确定目标第一图像子区域，并对所述目标第一图像子区域进行文本识别，确定所述文本图像对应的文本内容，所述注意力图包括对应有注意力值的多个第二图像子区域，所述第二图像子区域的数量与所述第一图像子区域的数量相同，所述注意力值用于表征所述第二图像子区域对应的第一图像子区域中出现文字的概率。 9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1 ‑7中任一项所述方法的步骤。 10.一种电子设备，其特征在于，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1 ‑7中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114495111 A 3

专利 文本识别方法、装置、可读介质及电子设备

专利文本识别方法、装置、可读介质及电子设备