全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211015120.X (22)申请日 2022.08.23 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 杨鹏 孔常青 万根顺 潘嘉  刘聪 胡国平 刘庆峰  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 柳芳 (51)Int.Cl. G06K 9/62(2022.01) G06V 40/16(2022.01) G06V 20/40(2022.01) G10L 15/02(2006.01)G10L 15/26(2006.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种状态检测方法、 装置、 设备和存 储介质 (57)摘要 本申请公开了一种状态检测方法、 装置、 设 备和存储介质, 该方法包括: 获取关于目标对象 的视频和音频; 从视频中至少提取目标对象 的第 一面部特征, 从音频中提取目标对象的第一语音 特征, 并基于音频得到音 频对应的文本信息的语 义完整度特征; 至少基于第一面部特征、 第一语 音特征和语义完整度特征, 得到关于目标对象 的 状态检测结果, 状态检测结果用于确定目标对象 是否存在预设状态。 通过上述方式, 本申请能够 提高目标对象的状态检测的准确性。 权利要求书2页 说明书13页 附图5页 CN 115438725 A 2022.12.06 CN 115438725 A 1.一种状态检测方法, 其特 征在于, 所述方法包括: 获取关于目标对象的视频和音频; 从所述视频中至少提取所述目标对象的第 一面部特征, 从所述音频中提取所述目标对 象的第一语音特 征, 并基于所述音频 得到所述音频对应的文本信息的语义完整度特 征; 至少基于所述第一面部特征、 所述第一语音特征和所述语义完整度特征, 得到关于目 标对象的状态检测结果, 所述状态检测结果用于确定所述目标对象是否存在预设状态。 2.根据权利要求1所述的方法, 其特征在于, 所述视频包含所述目标对象的多帧面部图 像, 所述从所述视频中至少提取 所述目标对象的第一 面部特征, 包括: 分别提取至少一帧所述 面部图像中的第二 面部特征, 以得到所述第一 面部特征; 和/或, 所述音频包含所述目标对象的多帧语音帧, 所述从所述音频中提取所述目标对 象的语音特 征, 包括: 提取至少一帧所述语音帧的第二语音特 征, 以得到所述第一语音特 征; 和/或, 基于所述音频 得到所述音频对应的文本信息的语义完整度特 征, 包括: 提取各语音帧对应的第二语音特征; 融合各所述第二语音特征, 得到所述音频的语音 融合特征; 对所述语音融合特征进行语音识别, 得到所述音频对应的所述文本信息; 对所述 文本信息进行处 理, 得到所述文本的所述语义完整度特 征。 3.根据权利要求2所述的方法, 其特征在于, 所述分别提取至少一帧所述面部图像 中的 第二面部特征, 包括: 对于各帧所述 面部图像, 从所述 面部图像中提取多个面部关键点; 分别获取第一线段和各第二线段间的空间关系值, 其中, 所述第一线段由至少两个所 述面部关键点的连线组成, 各所述第二线段分别由所述第一线段其中一端对应的所述面部 关键点和各 所述面部关键点的连线组成; 按照预设顺序将所述面部图像对应的各所述空间关系值排序, 得到所述面部图像 中的 第二面部特征。 4.根据权利要求1所述的方法, 其特征在于, 所述至少基于所述第一面部特征、 所述第 一语音特 征和所述语义完整度特 征, 得到关于目标对象的状态检测结果, 包括: 融合所述第一 面部特征和所述第一语音特 征, 得到第一融合特 征; 融合所述第一融合特 征和所述语义完整度特 征, 得到第二融合特 征; 对所述第二融合特 征进行状态检测, 得到关于目标对象的状态检测结果。 5.根据权利要求4所述的方法, 其特征在于, 所述视频包含所述目标对象的多帧面部图 像, 所述第一面部特征包括各帧所述面部图像的第二面部特征, 所述音频包含所述 目标对 象的多帧语音帧, 所述第一语音特征包括各帧所述语音帧的第二语音特征; 所述融合所述 第一面部特征和所述第一语音特 征, 得到第一融合特 征, 包括: 融合各所述第二面部特征得到面部融合特征, 并融合各所述第二语音特征, 得到语音 融合特征, 其中, 所述面部融合特征为所述第一面部特征, 所述语音融合特征为所述第一语 音特征; 融合所述 面部融合特 征和所述语音融合特 征, 得到第三融合特 征; 利用处理模型对所述第三融合特 征进行处 理, 得到所述第一融合特 征; 和/或, 所述对所述第二融合特征进行状态检测, 得到关于目标对象的状态检测结果,权 利 要 求 书 1/2 页 2 CN 115438725 A 2包括: 利用分类模型对所述第二融合特 征进行处 理, 得到关于目标对象的状态检测结果。 6.根据权利要求1所述的方法, 其特征在于, 所述关于目标对象的视频和音频有多组, 所述状态检测结果包 含所述目标对象存在所述预设状态的概 率; 在得到各组所述视频和所述音频对应的所述状态检测结果之后, 所述方法还 包括: 基于各组所述视频和所述音频对应的状态检测结果中的所述概率, 得到关于目标对象 的最终状态检测结果。 7.根据权利要求1所述的方法, 其特征在于, 所述第 一语音特征是利用语音识别工具包 获取得到的, 所述第一 面部特征是利用人脸识别开源库中的特 征提取工具获取 得到的; 和/或, 所述预设状态为目标对象的神经系统变性 导致的状态。 8.一种状态检测装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取关于目标对象的视频和音频; 特征提取模块, 用于从所述视频中至少提取所述目标对象的第一面部特征, 从所述音 频中提取所述目标对象的第一语音特征, 并基于所述音频得到所述音频对应的文本信息的 语义完整度特 征; 状态检测模块, 用于至少基于所述第一面部特征、 所述第一语音特征和所述语义完整 度特征, 得到关于目标对 象的状态检测结果, 所述状态检测结果用于确定所述目标对 象是 否存在预设状态。 9.一种电子设备, 其特 征在于, 包括相互耦接的存 储器和处 理器, 所述存储器存储有程序指令; 所述处理器用于执行所述存储器中存储的程序指令, 以实现权利要求1 ‑7任一项所述 的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储程序指 令, 所述程序指令能够被执 行以实现权利要求1 ‑7任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115438725 A 3

PDF文档 专利 一种状态检测方法、装置、设备和存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种状态检测方法、装置、设备和存储介质 第 1 页 专利 一种状态检测方法、装置、设备和存储介质 第 2 页 专利 一种状态检测方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。