专利一种状态检测方法、装置、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211015120.X (22)申请日 2022.08.23 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新开发区望江西路666号 (72)发明人杨鹏　孔常青　万根顺　潘嘉　刘聪　胡国平　刘庆峰　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 专利代理师柳芳 (51)Int.Cl. G06K 9/62(2022.01) G06V 40/16(2022.01) G06V 20/40(2022.01) G10L 15/02(2006.01)G10L 15/26(2006.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称一种状态检测方法、装置、设备和存储介质 (57)摘要本申请公开了一种状态检测方法、装置、设备和存储介质，该方法包括：获取关于目标对象的视频和音频；从视频中至少提取目标对象的第一面部特征，从音频中提取目标对象的第一语音特征，并基于音频得到音频对应的文本信息的语义完整度特征；至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，状态检测结果用于确定目标对象是否存在预设状态。通过上述方式，本申请能够提高目标对象的状态检测的准确性。权利要求书2页说明书13页附图5页 CN 115438725 A 2022.12.06 CN 115438725 A 1.一种状态检测方法，其特征在于，所述方法包括：获取关于目标对象的视频和音频；从所述视频中至少提取所述目标对象的第一面部特征，从所述音频中提取所述目标对象的第一语音特征，并基于所述音频得到所述音频对应的文本信息的语义完整度特征；至少基于所述第一面部特征、所述第一语音特征和所述语义完整度特征，得到关于目标对象的状态检测结果，所述状态检测结果用于确定所述目标对象是否存在预设状态。 2.根据权利要求1所述的方法，其特征在于，所述视频包含所述目标对象的多帧面部图像，所述从所述视频中至少提取所述目标对象的第一面部特征，包括：分别提取至少一帧所述面部图像中的第二面部特征，以得到所述第一面部特征；和/或，所述音频包含所述目标对象的多帧语音帧，所述从所述音频中提取所述目标对象的语音特征，包括：提取至少一帧所述语音帧的第二语音特征，以得到所述第一语音特征；和/或，基于所述音频得到所述音频对应的文本信息的语义完整度特征，包括：提取各语音帧对应的第二语音特征；融合各所述第二语音特征，得到所述音频的语音融合特征；对所述语音融合特征进行语音识别，得到所述音频对应的所述文本信息；对所述文本信息进行处理，得到所述文本的所述语义完整度特征。 3.根据权利要求2所述的方法，其特征在于，所述分别提取至少一帧所述面部图像中的第二面部特征，包括：对于各帧所述面部图像，从所述面部图像中提取多个面部关键点；分别获取第一线段和各第二线段间的空间关系值，其中，所述第一线段由至少两个所述面部关键点的连线组成，各所述第二线段分别由所述第一线段其中一端对应的所述面部关键点和各所述面部关键点的连线组成；按照预设顺序将所述面部图像对应的各所述空间关系值排序，得到所述面部图像中的第二面部特征。 4.根据权利要求1所述的方法，其特征在于，所述至少基于所述第一面部特征、所述第一语音特征和所述语义完整度特征，得到关于目标对象的状态检测结果，包括：融合所述第一面部特征和所述第一语音特征，得到第一融合特征；融合所述第一融合特征和所述语义完整度特征，得到第二融合特征；对所述第二融合特征进行状态检测，得到关于目标对象的状态检测结果。 5.根据权利要求4所述的方法，其特征在于，所述视频包含所述目标对象的多帧面部图像，所述第一面部特征包括各帧所述面部图像的第二面部特征，所述音频包含所述目标对象的多帧语音帧，所述第一语音特征包括各帧所述语音帧的第二语音特征；所述融合所述第一面部特征和所述第一语音特征，得到第一融合特征，包括：融合各所述第二面部特征得到面部融合特征，并融合各所述第二语音特征，得到语音融合特征，其中，所述面部融合特征为所述第一面部特征，所述语音融合特征为所述第一语音特征；融合所述面部融合特征和所述语音融合特征，得到第三融合特征；利用处理模型对所述第三融合特征进行处理，得到所述第一融合特征；和/或，所述对所述第二融合特征进行状态检测，得到关于目标对象的状态检测结果，权　利　要　求　书 1/2 页 2 CN 115438725 A 2包括：利用分类模型对所述第二融合特征进行处理，得到关于目标对象的状态检测结果。 6.根据权利要求1所述的方法，其特征在于，所述关于目标对象的视频和音频有多组，所述状态检测结果包含所述目标对象存在所述预设状态的概率；在得到各组所述视频和所述音频对应的所述状态检测结果之后，所述方法还包括：基于各组所述视频和所述音频对应的状态检测结果中的所述概率，得到关于目标对象的最终状态检测结果。 7.根据权利要求1所述的方法，其特征在于，所述第一语音特征是利用语音识别工具包获取得到的，所述第一面部特征是利用人脸识别开源库中的特征提取工具获取得到的；和/或，所述预设状态为目标对象的神经系统变性导致的状态。 8.一种状态检测装置，其特征在于，所述装置包括：获取模块，用于获取关于目标对象的视频和音频；特征提取模块，用于从所述视频中至少提取所述目标对象的第一面部特征，从所述音频中提取所述目标对象的第一语音特征，并基于所述音频得到所述音频对应的文本信息的语义完整度特征；状态检测模块，用于至少基于所述第一面部特征、所述第一语音特征和所述语义完整度特征，得到关于目标对象的状态检测结果，所述状态检测结果用于确定所述目标对象是否存在预设状态。 9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器存储有程序指令；所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1 ‑7任一项所述的方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现权利要求1 ‑7任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115438725 A 3

专利 一种状态检测方法、装置、设备和存储介质

专利一种状态检测方法、装置、设备和存储介质