专利唇语内容识别方法、装置、存储介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210499614.3 (22)申请日 2022.05.09 (71)申请人西安商汤智能科技有限公司地址 710075 陕西省西安市西咸新区沣西新城西部云谷二期1号楼15层15 01室 (72)发明人杨坤　孙其功　杨慧　马堃　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师董文俊 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称唇语内容识别方法、装置、存储介质及电子设备 (57)摘要本公开涉及唇语内容识别方法、装置、存储介质及电子设备。该方法包括：获取第一时刻下拍摄目标对象所得到的第一可见光图像和第一热图像；对上述第一可见光图像和上述第一热图像进行图像融合，得到第一融合图像；对上述第一融合图像进行唇语内容识别，得到上述第一时刻下上述目标对象对应的唇语内容。本公开可以通过图像融合使得得到的融合图像同时具备可见光信息和热信息，而可见光信息和热信息中都包含有用于进行唇语内容预测的有效信息，可见光信息中包含有口型的信息，而热信息中包含有吸气吐气的方向信息、程度信息等，将这些信息进行综合考量得到的唇语预测结果的准确度大幅度提升。权利要求书3页说明书17页附图6页 CN 114821797 A 2022.07.29 CN 114821797 A 1.一种唇语内容识别方法，其特征在于，所述方法包括：获取第一时刻下拍摄目标对象所得到的第一可见光图像和第一热图像；对所述第一可见光图像和所述第一热图像进行图像融合，得到第一融合图像；对所述第一融合图像进行唇语内容识别，得到所述第一时刻下所述目标对象对应的唇语内容。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取第二时刻下拍摄所述目标对象所得到的第二可见光图像和第二热图像，所述第二时刻为不同于所述第一时刻的任一时刻；对所述第二可见光图像和所述第二热图像进行所述图像融合，得到第二融合图像；所述对所述第一融合图像进行唇语内容识别，得到所述第一时刻下所述目标对象对应的唇语内容，包括：对所述第一融合图像和所述第二融合图像分别进行唇语内容识别，得到所述第一时刻下所述目标对象对应的唇语内容。 3.根据权利要求1或2所述的方法，其特征在于，所述对所述第一可见光图像和所述第一热图像进行图像融合，得到第一融合图像，包括：对所述第一可见光图像进行基于目标区域的截取，得到第一光区域图像，所述目标区域为包含唇语信息的区域；对所述第一热图像进行基于所述目标区域的截取，得到第一热区域图像；对所述第一光区域图像和所述第一热区域图像进行基于通道的融合处理，得到所述第一融合图像。 4.根据权利要求3所述的方法，其特征在于，所述对所述第一光区域图像和所述第一热区域图像进行基于通道的融合处理，得到所述第一融合图像，包括：对所述第一光区域图像和所述第一热区域图像进行对齐处理，得到第二光区域图像和第二热区域图像；对所述第二光区域图像和所述第二热区域图像进行通道横向连接，得到所述第一融合图像；其中，所述第二光区域图像中的第一位置，和，所述第二热区域图像中与所述第一位置对应的第二位置，均对应于空间中的同一位置，所述第一位置为所述第二光区域图像中的任一位置。 5.根据权利要求1 ‑4中任意一项所述的方法，其特征在于，所述对所述第一融合图像进行唇语内容识别，得到所述第一时刻下所述目标对象对应的唇语内容，包括：对所述第一融合图像进行特征提取处理，得到第一特征信息；对所述第一特征信息进行唇语内容映射处理，得到所述第一时刻下的唇语内容为每一内容词的概率；将概率最大的内容词确定为所述第一时刻下的唇语内容。 6.根据权利要求5所述的方法，其特征在于，所述对所述第一融合图像进行特征提取处理，得到第一特征信息，包括：对所述第一融合图像进行综合特征提取，得到第二特征信息，所述综合特征提取包括直接特征抽取、基于降维过滤的特征抽取和基于上下文的特征抽取中的至少一个；权　利　要　求　书 1/3 页 2 CN 114821797 A 2基于所述第二特征信息，得到所述第一特征信息。 7.根据权利要求6所述的方法，其特征在于，所述基于所述第二特征信息，得到所述第一特征信息，包括：对所述第二特征信息进行所述综合特征提取，得到所述第一特征信息。 8.根据权利要求2 ‑7中任意一项所述的方法，其特征在于，所述对所述第一融合图像和所述第二融合图像分别进行唇语内容识别，得到所述第一时刻下所述目标对象对应的唇语内容，包括：对所述第一融合图像和所述第二融合图像分别进行唇语内容识别，得到所述第一时刻下所述目标对象对应的唇语内容以及第二时刻下所述目标对象对应的唇语内容；基于所述第二时刻下所述目标对象对应的唇语内容，修正所述第一时刻下所述目标对象对应的唇语内容。 9.根据权利要求2 ‑8中任意一项所述的方法，其特征在于，所述方法还包括：在目标时间段下，获取拍摄所述目标图像所得到的可见光图像序列以及热图像序列，所述可见光图像序列中包括所述第一可见光图像和所述第二可见光图像，所述热图像序列中包括所述第一热图像和所述第二热图像；对所述可见光图像序列和所述热图像序列进行基于时间的配对处理，得到图像对序列，所述图像对序列中的每一图像对包括所述可见光图像序列在目标时刻下的可见光图像和所述热图像序列在所述目标时刻下的热图像，所述目标时刻为所述每一图像对所对应的时刻；对所述图像对序列中的各图像对进行图像融合，得到融合图像序列；对所述融合图像序列进行唇语内容识别，得到所述目标时间段内所述目标对象对应的唇语内容。 10.根据权利要求1 ‑9所述的方法，其特征在于，所述方法通过神经网络实施，所述神经网络的训练方法包括：获取多个样本融合图像和每一所述样本融合图像对应的标注信息，每一所述样本融合图像由样本可见光图像和对应的样本热图像进行图像融合得到，所述标注信息表征所述样本融合图像对应的唇语内容；将每一所述样本融合图像输入所述神经网络进行唇语内容识别，得到每一所述样本融合图像对应的唇语预测内容；根据每一所述样本融合图像对应的唇语预测内容和所述标注信息，调整所述神经网络的参数。 11.一种唇语内容识别装置，其特征在于，所述装置包括：图像获取模块，用于获取第一时刻下拍摄目标对象所得到的第一可见光图像和第一热图像；图像融合模块，用于对所述第一可见光图像和所述第一热图像进行图像融合，得到第一融合图像；唇语内容识别模块，用于对所述第一融合图像进行唇语内容识别，得到所述第一时刻下所述目标对象对应的唇语内容。 12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一权　利　要　求　书 2/3 页 3 CN 114821797 A 3

专利 唇语内容识别方法、装置、存储介质及电子设备

专利唇语内容识别方法、装置、存储介质及电子设备