全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210499614.3 (22)申请日 2022.05.09 (71)申请人 西安商汤智能科技有限公司 地址 710075 陕西省西安市西咸 新区沣西 新城西部云谷二期1号楼15层15 01室 (72)发明人 杨坤 孙其功 杨慧 马堃  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 董文俊 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 唇语内容识别方法、 装置、 存储介质及电子 设备 (57)摘要 本公开涉及唇语内容识别方法、 装置、 存储 介质及电子设备。 该方法包括: 获取第一时刻下 拍摄目标对象所得到的第一可见光图像和第一 热图像; 对 上述第一可见光图像和上述第一热图 像进行图像融合, 得到第一融合图像; 对上述第 一融合图像进行唇语内容识别, 得到上述第一时 刻下上述目标对象对应的唇语内容。 本公开可以 通过图像融合使得得到的融合图像同时具备可 见光信息和热信息, 而可见光信息和热信息中都 包含有用于进行唇语内容预测的有效信息, 可见 光信息中包含有口型的信息, 而热信息中包含有 吸气吐气 的方向信息、 程度信息等, 将这些信息 进行综合考量得到的唇语预测结果的准确度大 幅度提升 。 权利要求书3页 说明书17页 附图6页 CN 114821797 A 2022.07.29 CN 114821797 A 1.一种唇语内容识别方法, 其特 征在于, 所述方法包括: 获取第一时刻下拍摄目标对象所 得到的第一可 见光图像和第一热图像; 对所述第一可 见光图像和所述第一热图像进行图像融合, 得到第一融合图像; 对所述第一融合图像进行唇语 内容识别, 得到所述第 一时刻下所述目标对象对应的唇 语内容。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取第二时刻下拍摄所述目标对象所得到的第 二可见光图像和第 二热图像, 所述第 二 时刻为不同于所述第一时刻的任一时刻; 对所述第二可 见光图像和所述第二热图像进行 所述图像融合, 得到第二融合图像; 所述对所述第 一融合图像进行唇语 内容识别, 得到所述第 一时刻下所述目标对象对应 的唇语内容, 包括: 对所述第一融合图像和所述第 二融合图像分别进行唇语 内容识别, 得到所述第 一时刻 下所述目标对象对应的唇语内容。 3.根据权利要求1或2所述的方法, 其特征在于, 所述对所述第一可见光图像和所述第 一热图像进行图像融合, 得到第一融合图像, 包括: 对所述第一可见光图像进行基于目标区域的截取, 得到第一光区域图像, 所述目标区 域为包含唇语信息的区域; 对所述第一热图像进行基于所述目标区域的截取, 得到第一热区域图像; 对所述第一光区域图像和所述第 一热区域图像进行基于通道的融合处理, 得到所述第 一融合图像。 4.根据权利要求3所述的方法, 其特征在于, 所述对所述第 一光区域图像和所述第 一热 区域图像进行基于通道的融合处 理, 得到所述第一融合图像, 包括: 对所述第一光区域图像和所述第 一热区域图像进行对齐处理, 得到第 二光区域图像和 第二热区域图像; 对所述第二光区域图像和所述第 二热区域图像进行通道横向连接, 得到所述第 一融合 图像; 其中, 所述第 二光区域图像 中的第一位置, 和, 所述第 二热区域图像 中与所述第一位置 对应的第二位置, 均对应于空间中的同一位置, 所述第一位置为所述第二光区域图像中的 任一位置。 5.根据权利要求1 ‑4中任意一项所述的方法, 其特征在于, 所述对所述第 一融合图像进 行唇语内容识别, 得到所述第一时刻下 所述目标对象对应的唇语内容, 包括: 对所述第一融合图像进行 特征提取处 理, 得到第一特 征信息; 对所述第一特征信 息进行唇语 内容映射处理, 得到所述第 一时刻下的唇语内容为每一 内容词的概 率; 将概率最大的内容词确定为所述第一时刻下的唇语内容。 6.根据权利要求5所述的方法, 其特征在于, 所述对所述第 一融合图像进行特征提取处 理, 得到第一特 征信息, 包括: 对所述第一融合图像进行综合特征提取, 得到第二特征信息, 所述综合特征提取包括 直接特征抽取、 基于降维过 滤的特征抽取和基于上 下文的特 征抽取中的至少一个;权 利 要 求 书 1/3 页 2 CN 114821797 A 2基于所述第二特 征信息, 得到所述第一特 征信息。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述第二特征信息, 得到所述第 一特征信息, 包括: 对所述第二特 征信息进行 所述综合特 征提取, 得到所述第一特 征信息。 8.根据权利要求2 ‑7中任意一项所述的方法, 其特征在于, 所述对所述第 一融合图像和 所述第二融合图像分别进 行唇语内容识别, 得到所述第一时刻下所述目标对象对应的唇语 内容, 包括: 对所述第一融合图像和所述第 二融合图像分别进行唇语 内容识别, 得到所述第 一时刻 下所述目标对象对应的唇语内容以及第二时刻下 所述目标对象对应的唇语内容; 基于所述第 二时刻下所述目标对象对应的唇语内容, 修正所述第 一时刻下所述目标对 象对应的唇语内容。 9.根据权利要求2 ‑8中任意一项所述的方法, 其特 征在于, 所述方法还 包括: 在目标时间段下, 获取拍摄所述目标图像所得到的可见光图像序列以及热图像序列, 所述可见光图像序列中包括所述第一可见光图像和所述第二可见光图像, 所述热图像序列 中包括所述第一热图像和所述第二热图像; 对所述可见光图像序列和所述热图像序列进行基于时间的配对处理, 得到图像对序 列, 所述图像对序列中的每一图像对包括所述可见光图像序列在目标时刻下的可见光图像 和所述热图像序列在所述目标时刻下的热图像, 所述目标时刻为所述每一图像对所对应的 时刻; 对所述图像对序列中的各图像对进行图像融合, 得到融合图像序列; 对所述融合图像序列进行唇语 内容识别, 得到所述目标时间段内所述目标对象对应的 唇语内容。 10.根据权利要求1 ‑9所述的方法, 其特征在于, 所述方法通过神经网络实施, 所述神经 网络的训练方法包括: 获取多个样本 融合图像和每一所述样本 融合图像对应的标注信 息, 每一所述样本 融合 图像由样本可见光图像和对应的样本热图像进 行图像融合得到, 所述标注信息表征所述样 本融合图像对应的唇语内容; 将每一所述样本 融合图像输入所述神经网络进行唇语内容识别, 得到每一所述样本融 合图像对应的唇语预测内容; 根据每一所述样本 融合图像对应的唇语预测内容和所述标注信 息, 调整所述神经网络 的参数。 11.一种唇语内容识别装置, 其特 征在于, 所述装置包括: 图像获取模块, 用于获取第 一时刻下拍摄目标对象所得到的第 一可见光图像和第 一热 图像; 图像融合模块, 用于对所述第一可见光图像和所述第一热图像进行图像融合, 得到第 一融合图像; 唇语内容识别模块, 用于对所述第一融合图像进行唇语内容识别, 得到所述第一时刻 下所述目标对象对应的唇语内容。 12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有至少一权 利 要 求 书 2/3 页 3 CN 114821797 A 3

.PDF文档 专利 唇语内容识别方法、装置、存储介质及电子设备

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 唇语内容识别方法、装置、存储介质及电子设备 第 1 页 专利 唇语内容识别方法、装置、存储介质及电子设备 第 2 页 专利 唇语内容识别方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:36:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。