全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210966740.5 (22)申请日 2022.08.12 (71)申请人 之江实验室 地址 311100 浙江省杭州市余杭区中泰街 道之江实验室南湖总部 (72)发明人 林哲远 宛敏红 朱世强 黄敏  李想 王文  (74)专利代理 机构 杭州浙科专利事务所(普通 合伙) 33213 专利代理师 陈洁 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) G06V 10/80(2022.01)G10L 17/06(2013.01) H04N 5/92(2006.01) (54)发明名称 一种多人机交互场景下说话对象检测装置 及方法 (57)摘要 本发明属于计算机技术领域, 公开了一种多 人机交互场景下说话对象检测装置及方法, 包括 音频视频采集模块、 文本生成模块、 人脸检测跟 踪模块、 说话人特征提取检测模块、 说话对象特 征提取检测模块; 本发明实时地采集带时间戳的 彩色图像和带时间戳的音 频信息; 实时地通过音 频帧数据进行语音识别, 生成带有词语级、 句子 级、 对话主题级等不同层级的时间戳的文本信 息, 并在连续的图像帧中识别跟踪同一个人物; 通过人脸序列数据信息与音频帧数据信息识别 人群中的说话者; 通过检测到的说话人物信息、 音频帧数据信息、 文本数据信息、 场景数据信息, 检测说话者的说话对象是否是机器人。 提升了机 器人的人机交互过程中对交互的理解能力与人 机交互体验。 权利要求书3页 说明书7页 附图3页 CN 115376187 A 2022.11.22 CN 115376187 A 1.一种多人机交互场景下说话对象检测装置, 其特征在于, 包括音频视频采集模块 (10) 、 文本生成模块 (11) 、 人脸检测跟踪模块 (12) 、 说话人特征提取检测 模块 (13) 、 说话对 象特征提取检测模块 (14) ; 所述音频视频采集模块 (10) 用于实时采集带时间戳的彩色图像和带时间戳的音频信 息, 并按照时间顺序储存到视频帧数据库或音频帧数据库中, 同一时刻采集到的视频和音 频应根据时间戳进行同步; 所述文本生成模块 (11) 通过音频帧数据生成带有词语级、 句子级、 对话主题级的不同 层级的时间戳的文本信息, 并将所述文本信息存 入到文本数据库中; 所述人脸检测跟踪模块 (12) 通过机器视觉的方法检测彩色图像 中的人脸, 并在连续的 图像帧中识别跟踪同一个人物, 并将信息存入人脸序列数据库; 所述说话人特征提取检测 模块 (13) 利用机器学习或深度学习方法, 通过人脸序列数据信息与音频帧数据信息识别人 群中的说话 者, 并将其信息存 入到说话人物数据库中; 所述说话对象特征提取检测模块 (14) 利用机器学习或深度 学习方法, 通过检测到的说 话人物信息、 音频帧数据信息、 文本数据信息、 场景数据信息, 检测说话者的说话对 象是否 是机器人, 并将说话对象信息存 入到说话对象数据库。 2.根据权利要求1所述的多人机交互场景下说话对象检测装置, 其特征在于, 所述音频 视频采集模块 (10) 包括视频采集模块 (100) 、 音频采集模块 (101) 、 视频帧数据库 (102) 、 音 频帧数据库 (10 3) ; 所述视频采集模块 (100) 用于实时地使用相机采集带时间戳的彩色图像; 所述音频采 集模块 (101) 用于使用麦克风采集带时间戳的音频信息; 所述视频帧数据库 (102) 按时间顺序存 储带时间戳的彩色图片; 所述音频帧数据库 (10 3) 按时间顺序存 储带时间戳的音频。 3.根据权利要求1所述的多人机交互场景下说话对象检测装置, 其特征在于, 所述人脸 检测跟踪模块 (12) 包括人脸检测模块 (120) 、 人脸跟踪模块 (121) 、 人脸序列数据库 (12 2) ; 所述人脸检测模块 (120) 使用深度学习方法检测图片中的人脸; 所述人脸跟踪模块 (121) 用于在连续的图像帧中识别跟踪同一个人物并赋予一个 固定 的id表示这个人物, 即便人物在视野中消失后再次出现, 仍能使用原有的id来表示这个人 物; 所述人脸序列数据库 (12 2) 用于存 储带有时间戳的人脸序列数据。 4.根据权利要求1所述的多人机交互场景下说话对象检测装置, 其特征在于, 所述说话 人特征提取检测模块 (13) 包括说话人脸特征提取模块 (130) 、 说话人音频帧序列特征提取 模块 (131) 、 说话人多模态融合模块 (132) 、 说话状态检测模块 (13 3) 、 说话人 数据库 (134) ; 所述说话人脸特征提取模块 (130) 用于将人脸图片序列数据信息分别输入到深度 学习 网络中, 并提取 人物面部的时序、 空间特 征; 所述说话人音频帧序列特征提取模块 (131) 用于将说话人音频帧序列信息输入到深度 学习网络中, 并提取其中的人声 音频特征; 所述说话人多模态融合模块 (132) 用于将上述说话人人物面部特征、 人声音频特征融 合成一个说话人多模态的特 征; 所述说话状态检测模块 (133) 用于将所述说话人多模态的特征输入到深度学习网络权 利 要 求 书 1/3 页 2 CN 115376187 A 2中, 并预测人物的说话状态; 所述说话人物数据库 (134) 用于存 储当前时刻的说话人物信息 。 5.根据权利要求1所述的多人机交互场景下说话对象检测装置, 其特征在于, 所述说话 对象特征提取检测模块 (14) 包括说话对象人脸特征提取模块 (140) 、 说话对象音频帧序列 特征提取模块 (141) 、 文本序列特征提取模块 (142) 、 说话对象多模态融合模块 (143) 、 说话 对象检测模块 (14 4) 、 说话对象数据库 (146) 、 场景 数据库 (145) ; 所述说话对象人脸特征提取模块 (140) 用于将说话对象人脸图片序列数据信息输入到 深度学习网络中, 并提取 人物面部的时序、 空间特 征; 所述说话对象音频帧序列特征提取模块 (141) 用于将说话对象音频帧序列信息输入到 深度学习网络中, 并提取其中的人声信息特 征; 所述文本序列特征提取模块 (142) 用于将文本数据库中的层级的文本信息输入到自然 语言的深度学习网络中, 并提取文本语义特 征; 所述说话对象多模态融合模块 (143) 用于将上述说话对象人物面部特征、 人声音频特 征、 文本语义特 征、 来自场景 数据库的场景 特征融合成一个多模态的特 征; 所述说话对象检测模块 (144) 用于将上述说话对象多模态的特征输入到深度 学习网络 中, 并逐一预测说话人的说话对象; 所述说话对象数据库 (146) 用于存储当前时刻的说话对象信息, 供其他模块调用, 或作 为结果输出; 所述场景数据库 (145) 用于存储前一时刻的说话人物、 说话对象信息, 供说话对象检测 模块使用。 6.根据权利要求1所述的多人机交互场景下说话对象检测装置, 其特征在于, 所述文本 生成模块 (11) 包括语音识别模块 (110) 、 文本数据库 (111) ; 所述语音识别模块 (110) 用于通 过音频帧数据生成带有词语级、 句子级、 对话主题级等 不同层级的时间戳的文本信息; 所述文本数据库 (1 11) 用于按时间顺序和层级区别存 储文本信息 。 7.一种利用如权利要求1 ‑6任一项所述的多人机交互场景下说话对象检测装置进行说 话对象检测的方法, 其特 征在于, 包括如下步骤: 步骤S1, 音频视频采集模块 (10) 实时地使用相机采集带时间戳的彩色图像, 使用麦克 风采集带时间戳的音频信息, 并按照时间顺序储存到视频帧数据库或音频帧数据库中, 同 一时刻采集到的视频和音频应根据时间戳进行同步; 步骤S2, 文本生成模块 (11) 实时地通过音频帧数据进行语音识别, 生成带有词语级、 句 子级、 对话主题级等不同层级的时间戳的文本信息, 并将上述文本信息存入到文本数据库 中; 步骤S3, 人脸检测跟踪模块 (12) 通过机器视觉的方法检测彩色图像中的人脸, 并在连 续的图像帧中识别跟踪同一个人物, 并将信息存 入人脸序列数据库; 步骤S4, 说话人特征提取检测模块 (13) 通过机器学习或深度学习方法, 通过人脸序列 数据信息与音频帧数据信息识别人群中的说话 者, 并将其信息存 入到说话人物数据库中; 步骤S5, 说话对象特征提取检测模块 (14) 通过机器学习或深度学习方法, 通过检测到 的说话人物信息、 音频帧数据信息、 文本数据信息、 场景数据信息, 检测说话者的说话对象 是否是机器人, 并将说话对象信息存 入到说话对象数据库。权 利 要 求 书 2/3 页 3 CN 115376187 A 3

.PDF文档 专利 一种多人机交互场景下说话对象检测装置及方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多人机交互场景下说话对象检测装置及方法 第 1 页 专利 一种多人机交互场景下说话对象检测装置及方法 第 2 页 专利 一种多人机交互场景下说话对象检测装置及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:11:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。