全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210256553.8 (22)申请日 2022.03.16 (65)同一申请的已公布的文献号 申请公布号 CN 114329036 A (43)申请公布日 2022.04.12 (73)专利权人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 王青 兰浩源 刘阳 林倞  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 禹小明 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/55(2019.01)G06F 16/65(2019.01) G06F 16/683(2019.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员 邓丽婉 (54)发明名称 一种基于注意力机制的跨模态特征融合系 统 (57)摘要 本发明提供一种基于注意力机制的跨模态 特征融合系统, 该系统基于音频和视频图像两者 信息的互补关系, 提出了用有监督对比学习 作为 框架的方法来提取音视频两个模态的特征, 同时 构建了音视频关联分析模块, 实现音视频对齐, 并设计了一种基于注意力机制的跨模态特征融 合模块, 以实现音视频特征的融合。 将音频和RGB 图片作为输入来达到对视频表示进行学习的目 的。 权利要求书3页 说明书12页 附图2页 CN 114329036 B 2022.07.05 CN 114329036 B 1.一种基于注意力机制的跨模态特 征融合系统, 其特 征在于, 包括: 音视频关联分析模块, 用于对音频和视频RGB图像两个模态进行对齐; 有监督对比学习模块, 用于音频和视频RGB图像两个模态提取模态的特 征; 跨模态特 征融合模块, 用于利用模态之间的相关知识来学习全局上 下文表示; 音视频关联分析模 块从一段视 频i中连续采 集16帧RGB图像 所产生的RGB片段vi作为RGB 图像模态的输入; 此时, 一段视频中仅采样一个片段, 为了充分利用一段视频中的有效音频 信息, 将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入; 其中, i=1, ···,N; 有监督对比学习模块的具体处 理过程是: 1) 、 模态特征提取: 视频i的RGB片段vi经过以r3d为基础框架的3D卷积网络后提取的特 征为 , 对应音频的梅尔频谱图ai经过音频的3D卷积网络后提取的特 征为 ; 2) 、 自监督对比学习生成自监 督对比损失; 3) 、 有监督对比学习生成有监 督对比损失; 自监督对比学习生成自监 督对比损失的具体过程是: 正对{ , }i=1,· · ·,N表示为: 来源于同一个视频  i的RGB片段特征 和对应音频所 产生的梅尔频谱图特征 ; 负对{ , }i,j=1,· · ·,N且i≠j∪{ , }i,j=1,· · ·,N且i≠j表示为: 来源于视频  i产生的RGB片段特征 , 和所有来源于视频j(i≠j)所产生的RGB片段特征 以及梅尔频谱图特 征 ; 视频的RGB图像模态的自监 督对比损失表示 为: 其中, 是标量温度参数, 其中 分子为所有正对样本距离和, 分母为所有正对以及负对样本距离和; 同理, 音频模态的自监 督对比损失为: 由公式(1)  (2)得出整体自监 督对比损失为: 。 2.根据权利要求1所述的基于注意力 机制的跨模态特征融合系统, 其特征在于, 有监督 对比学习生成有监 督对比损失的具体过程是: 正对{ , }i,j=1,· · ·,N且yi=yj∪{ , }i,j=1,· · ·,N且i≠j且yi=yj表示为: 和所有来源于 同一类别的视频  i和视频j的RGB片段特征 以及音频所产生的梅尔频谱图特征 , ;权 利 要 求 书 1/3 页 2 CN 114329036 B 2其余的都为负对; 有监 督对比损失 公式如下: 视频的RGB图像模态的有监 督对比损失表示 为: 其中, 是标量温度参数, 其中分子为所有正对样本距离和, 分母为所有正对以及负对样本距 离和; 同理, 音频模态的有监 督对比损失为: 由公式(4)  (5)得出整体有监 督对比损失为: 。 3.根据权利要求2所述的基于注意力 机制的跨模态特征融合系统, 其特征在于, 跨模态 特征融合模块接收来自不同模态的特征并学习全局上下文嵌入, 然后该嵌入用于重新校准 来自不同片段的输入特征, 使用从有监督对比学习框架中学习到的视频片段特征作为输 入, 将经过融合后的特 征作为输出, 通过交叉熵计算融合部分的损失函数。 4.根据权利要求3所述的基于注意力 机制的跨模态特征融合系统, 其特征在于, 跨模态 特征融合模块的具体处 理过程是: 一个视频i的两个模态分别为vi和ai, 从有监督对比学习框架中经过三维卷积网络提取 的特征是{ , }, 为了利用这两个模态之间 的相关性, 连接这两个特征向量并通过全连 接层获得 联合表示: 其中 [·,·] 表示连接操作, 表示联合表示, Ws和bs是全连接层的权重和偏 差; 选择 来限制模型容量并增加其泛化能力, 为了利用在联合表示Zu中聚 合的全局上 下文信息, 通过一个全连接层预测它的激励信号: 权 利 要 求 书 2/3 页 3 CN 114329036 B 3

.PDF文档 专利 一种基于注意力机制的跨模态特征融合系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于注意力机制的跨模态特征融合系统 第 1 页 专利 一种基于注意力机制的跨模态特征融合系统 第 2 页 专利 一种基于注意力机制的跨模态特征融合系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。