专利一种多人机交互场景下说话对象检测装置及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210966740.5 (22)申请日 2022.08.12 (71)申请人之江实验室地址 311100 浙江省杭州市余杭区中泰街道之江实验室南湖总部 (72)发明人林哲远　宛敏红　朱世强　黄敏　李想　王文　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师陈洁 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) G06V 10/80(2022.01)G10L 17/06(2013.01) H04N 5/92(2006.01) (54)发明名称一种多人机交互场景下说话对象检测装置及方法 (57)摘要本发明属于计算机技术领域，公开了一种多人机交互场景下说话对象检测装置及方法，包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块；本发明实时地采集带时间戳的彩色图像和带时间戳的音频信息；实时地通过音频帧数据进行语音识别，生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息，并在连续的图像帧中识别跟踪同一个人物；通过人脸序列数据信息与音频帧数据信息识别人群中的说话者；通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人。提升了机器人的人机交互过程中对交互的理解能力与人机交互体验。权利要求书3页说明书7页附图3页 CN 115376187 A 2022.11.22 CN 115376187 A 1.一种多人机交互场景下说话对象检测装置，其特征在于，包括音频视频采集模块（10）、文本生成模块（11）、人脸检测跟踪模块（12）、说话人特征提取检测模块（13）、说话对象特征提取检测模块（14）；所述音频视频采集模块（10）用于实时采集带时间戳的彩色图像和带时间戳的音频信息，并按照时间顺序储存到视频帧数据库或音频帧数据库中，同一时刻采集到的视频和音频应根据时间戳进行同步；所述文本生成模块（11）通过音频帧数据生成带有词语级、句子级、对话主题级的不同层级的时间戳的文本信息，并将所述文本信息存入到文本数据库中；所述人脸检测跟踪模块（12）通过机器视觉的方法检测彩色图像中的人脸，并在连续的图像帧中识别跟踪同一个人物，并将信息存入人脸序列数据库；所述说话人特征提取检测模块（13）利用机器学习或深度学习方法，通过人脸序列数据信息与音频帧数据信息识别人群中的说话者，并将其信息存入到说话人物数据库中；所述说话对象特征提取检测模块（14）利用机器学习或深度学习方法，通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人，并将说话对象信息存入到说话对象数据库。 2.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述音频视频采集模块（10）包括视频采集模块（100）、音频采集模块（101）、视频帧数据库（102）、音频帧数据库（10 3）；所述视频采集模块（100）用于实时地使用相机采集带时间戳的彩色图像；所述音频采集模块（101）用于使用麦克风采集带时间戳的音频信息；所述视频帧数据库（102）按时间顺序存储带时间戳的彩色图片；所述音频帧数据库（10 3）按时间顺序存储带时间戳的音频。 3.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述人脸检测跟踪模块（12）包括人脸检测模块（120）、人脸跟踪模块（121）、人脸序列数据库（12 2）；所述人脸检测模块（120）使用深度学习方法检测图片中的人脸；所述人脸跟踪模块（121）用于在连续的图像帧中识别跟踪同一个人物并赋予一个固定的id表示这个人物，即便人物在视野中消失后再次出现，仍能使用原有的id来表示这个人物；所述人脸序列数据库（12 2）用于存储带有时间戳的人脸序列数据。 4.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述说话人特征提取检测模块（13）包括说话人脸特征提取模块（130）、说话人音频帧序列特征提取模块（131）、说话人多模态融合模块（132）、说话状态检测模块（13 3）、说话人数据库（134）；所述说话人脸特征提取模块（130）用于将人脸图片序列数据信息分别输入到深度学习网络中，并提取人物面部的时序、空间特征；所述说话人音频帧序列特征提取模块（131）用于将说话人音频帧序列信息输入到深度学习网络中，并提取其中的人声音频特征；所述说话人多模态融合模块（132）用于将上述说话人人物面部特征、人声音频特征融合成一个说话人多模态的特征；所述说话状态检测模块（133）用于将所述说话人多模态的特征输入到深度学习网络权　利　要　求　书 1/3 页 2 CN 115376187 A 2中，并预测人物的说话状态；所述说话人物数据库（134）用于存储当前时刻的说话人物信息。 5.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述说话对象特征提取检测模块（14）包括说话对象人脸特征提取模块（140）、说话对象音频帧序列特征提取模块（141）、文本序列特征提取模块（142）、说话对象多模态融合模块（143）、说话对象检测模块（14 4）、说话对象数据库（146）、场景数据库（145）；所述说话对象人脸特征提取模块（140）用于将说话对象人脸图片序列数据信息输入到深度学习网络中，并提取人物面部的时序、空间特征；所述说话对象音频帧序列特征提取模块（141）用于将说话对象音频帧序列信息输入到深度学习网络中，并提取其中的人声信息特征；所述文本序列特征提取模块（142）用于将文本数据库中的层级的文本信息输入到自然语言的深度学习网络中，并提取文本语义特征；所述说话对象多模态融合模块（143）用于将上述说话对象人物面部特征、人声音频特征、文本语义特征、来自场景数据库的场景特征融合成一个多模态的特征；所述说话对象检测模块（144）用于将上述说话对象多模态的特征输入到深度学习网络中，并逐一预测说话人的说话对象；所述说话对象数据库（146）用于存储当前时刻的说话对象信息，供其他模块调用，或作为结果输出；所述场景数据库（145）用于存储前一时刻的说话人物、说话对象信息，供说话对象检测模块使用。 6.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述文本生成模块（11）包括语音识别模块（110）、文本数据库（111）；所述语音识别模块（110）用于通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息；所述文本数据库（1 11）用于按时间顺序和层级区别存储文本信息。 7.一种利用如权利要求1 ‑6任一项所述的多人机交互场景下说话对象检测装置进行说话对象检测的方法，其特征在于，包括如下步骤：步骤S1，音频视频采集模块（10）实时地使用相机采集带时间戳的彩色图像，使用麦克风采集带时间戳的音频信息，并按照时间顺序储存到视频帧数据库或音频帧数据库中，同一时刻采集到的视频和音频应根据时间戳进行同步；步骤S2，文本生成模块（11）实时地通过音频帧数据进行语音识别，生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息，并将上述文本信息存入到文本数据库中；步骤S3，人脸检测跟踪模块（12）通过机器视觉的方法检测彩色图像中的人脸，并在连续的图像帧中识别跟踪同一个人物，并将信息存入人脸序列数据库；步骤S4，说话人特征提取检测模块（13）通过机器学习或深度学习方法，通过人脸序列数据信息与音频帧数据信息识别人群中的说话者，并将其信息存入到说话人物数据库中；步骤S5，说话对象特征提取检测模块（14）通过机器学习或深度学习方法，通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人，并将说话对象信息存入到说话对象数据库。权　利　要　求　书 2/3 页 3 CN 115376187 A 3

专利 一种多人机交互场景下说话对象检测装置及方法

专利一种多人机交互场景下说话对象检测装置及方法