全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210159056.6 (22)申请日 2022.02.21 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 王甲海 王继武  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 刘俊 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 40/16(2022.01)G10L 25/03(2013.01) G10L 25/30(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于跨模态注意力机制的多模态个性 识别方法及系统 (57)摘要 本发明公开了一种基于跨模态注意力机制 的多模态个性识别方法及系统, 方法包括以下步 骤: S1: 对视频数据进行预处理, 分别得到视频数 据中的音频文件和视频帧中的人脸图像和场景 图像; S2: 从音频文件中提取声音特征; S3: 分别 对人脸图像和场景图像进行图像特征提取; S4: 利用跨模注意力机制对提取的声音特征和图像 特征进行深层特征提取; S5: 将不同模态的深层 特征进行加权特征融合, 利用预设的全 连接层计 算个性分数, 得到个性结果; S6: 将预准备的视频 数据划分为训练集、 验证集和测试集, 重复步骤 S1‑S5迭代训练, 利用验证集对训练后的模型进 行验证, 保存验证效果最好的模型用于个性识 别。 本发明提高了多 模态个性识别的准确率。 权利要求书3页 说明书9页 附图3页 CN 114549946 A 2022.05.27 CN 114549946 A 1.一种基于跨模态 注意力机制的多模态个性识别方法, 其特 征在于, 包括以下步骤: S1: 对视频数据进行预处理, 分别得到视频数据中的音频文件和视频帧中的人脸图像 和场景图像; S2: 从音频文件中提取声 音特征; S3: 分别对人脸图像和场景图像进行图像特 征提取; S4: 利用跨模注意力机制对提取的声 音特征和图像特 征进行深层特 征提取; S5: 将不同模态的深层特征进行加权特征融合, 利用预设的全连接层计算个性分数, 得 到个性结果; S6: 将预准备的视频数据划分为训练集、 验证集和测试集, 重 复步骤S1 ‑S5迭代训练, 利 用验证集对训练后的模型进行验证, 保存 验证效果 最好的模型用于个性识别。 2.根据权利要求1所述的一种基于跨模态注意力机制的多模态个性识别方法, 其特征 在于, 步骤S1的具体过程 为: S101: 利用视频剪辑工具读取视频 数据, 保存视频中的音频为 wav格式; S102: 利用开源的机器视觉库读取视频每一帧, 在读取的全部帧中, 固定区间间隔, 每 个子间隔随机 选取一帧作为场景图像, 将得到的场景图像转换为预设尺寸; S103: 利用开源的人脸识别 模型从场景图像识别出人脸图像, 标记人脸区域, 将人脸图 像转换为预设尺寸。 3.根据权利要求2所述的一种基于跨模态注意力机制的多模态个性识别方法, 其特征 在于, 所述预设尺寸 为112*112, 所述场景图像和人脸图像均为3通道图像。 4.根据权利要求1所述的一种基于跨模态注意力机制的多模态个性识别方法, 其特征 在于, 步骤S4的具体过程 为: S401: 分别将声音特征、 人脸图像特征、 场景图像特征三个模态特征通过双向的GRU得 到三个模态特 征的上下文特征表示; S402: 将三个模态特 征的上下文特征表示利用跨模态 注意力机制进行 特征提取; S403: 将通过跨模注意力机制提取的各模态特征通过LSTM+attention层提取时序特 征。 5.根据权利要求4所述的一种基于跨模态注意力机制的多模态个性识别方法, 其特征 在于, 分别将声音特征、 人脸图像特征、 场景图像特征三个模态特征通过双向的GRU得到三 个模态特 征的上下文特征表示, 表达式为: Xsence=BiGRU(s1, s2, s3, ......, st) Xface=BiGRU(f1, f2, f3, ......, ft) Xaudio=BiGRU(a1, a2, a3, ......, at) 其中, BiGRU是双向GRU网络, s1~st、 f1~ft分别为提取的场景特征序列和人脸特征序 列, a1~at是S2提取的声音特征序列, Xsence、 Xface、 Xaudio分别是经过上下文表示的场景、 人 脸、 声音特征序列。 6.根据权利要求4所述的一种基于跨模态注意力机制的多模态个性识别方法, 其特征 在于, 跨模态 注意力机制的数 学表达式如下: 权 利 要 求 书 1/3 页 2 CN 114549946 A 2Wf=γ·αm+(1‑γ)·βa Wm=Softmax(Wf) XAtt=WmXm 其中, αm表示主模态的注意力矩阵, βa表示辅助模态的注意力矩阵, Wf表示经过超参γ 调制后的注意力矩阵, Wm经过Softmax激活的权重矩阵, Qm和Km表示主模态的特征序列, Qa和 Ka表示辅助模态的特征序列, tanh表示正切函数激活, γ表示辅助模态引入的权重, XAtt表 示经过跨模态 注意力机制后的得到的特 征序列。 7.根据权利要求4所述的一种基于跨模态注意力机制的多模态个性识别方法, 其特征 在于, 通过LSTM+at tention层提取时序特 征, 其数学表达式如下: Ot, Ht=biLSTM(Xatt) Wl=Softmax(Wt) Z=Wl·Ot 其中, Ot、 Ht分别表示为LSTM 的最后一层输出和所有隐层输出, Wt表示时序特征的注意 力矩阵, Wl表示为每一个隐层特征对应的权重, Z表示经过加权后的序列特征, 即每个模态 提取的最终特 征。 8.根据权利要求1所述的一种基于跨模态注意力机制的多模态个性识别方法, 其特征 在于, 步骤S5的具体过程 为: S501: 将步骤S4 提取得到的三个模态的特 征进行拼接; S502: 通过两层全连接 激活和Softmax激活得到 权重向量; S503: 将拼接后的特征和权重向量相乘后输入至预设的全连接层, 输出预测的个性分 数。 9.根据权利要求8所述的一种基于跨模态注意力机制的多模态个性识别方法, 其特征 在于, 步骤S5中包括的数 学表达式有: F=Cat[Za, Zf, Zs] a=tanh(V tanh(W·F+b)+c) 其中, F表示拼接后的多模态特征, a表示多模态特征F每个维度的权重向量, Za、 Zf、 Zs分 别为提取的声音、 人脸、 场景的模态特征, 表示加权后的多模态特征, 表示经过Softmax 归一化后的融合特 征。 10.一种基于跨模态注意力机制的多模态个性识别系统, 其特征在于, 该系统包括: 存 储器、 处理器, 所述存储器中包括基于跨模态注 意力机制的多模态个性识别方法程序, 所述 基于跨模态 注意力机制的多模态个性识别方法程序被所述处 理器执行时实现如下步骤: S1: 对视频数据进行预处理, 分别得到视频数据中的音频文件和视频帧中的人脸图像 和场景图像; S2: 从音频文件中提取声 音特征;权 利 要 求 书 2/3 页 3 CN 114549946 A 3

.PDF文档 专利 一种基于跨模态注意力机制的多模态个性识别方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于跨模态注意力机制的多模态个性识别方法及系统 第 1 页 专利 一种基于跨模态注意力机制的多模态个性识别方法及系统 第 2 页 专利 一种基于跨模态注意力机制的多模态个性识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。