(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210256553.8
(22)申请日 2022.03.16
(65)同一申请的已公布的文献号
申请公布号 CN 114329036 A
(43)申请公布日 2022.04.12
(73)专利权人 中山大学
地址 510275 广东省广州市海珠区新港西
路135号
(72)发明人 王青 兰浩源 刘阳 林倞
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 禹小明
(51)Int.Cl.
G06F 16/583(2019.01)
G06F 16/55(2019.01)G06F 16/65(2019.01)
G06F 16/683(2019.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 邓丽婉
(54)发明名称
一种基于注意力机制的跨模态特征融合系
统
(57)摘要
本发明提供一种基于注意力机制的跨模态
特征融合系统, 该系统基于音频和视频图像两者
信息的互补关系, 提出了用有监督对比学习 作为
框架的方法来提取音视频两个模态的特征, 同时
构建了音视频关联分析模块, 实现音视频对齐,
并设计了一种基于注意力机制的跨模态特征融
合模块, 以实现音视频特征的融合。 将音频和RGB
图片作为输入来达到对视频表示进行学习的目
的。
权利要求书3页 说明书12页 附图2页
CN 114329036 B
2022.07.05
CN 114329036 B
1.一种基于注意力机制的跨模态特 征融合系统, 其特 征在于, 包括:
音视频关联分析模块, 用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块, 用于音频和视频RGB图像两个模态提取模态的特 征;
跨模态特 征融合模块, 用于利用模态之间的相关知识来学习全局上 下文表示;
音视频关联分析模 块从一段视 频i中连续采 集16帧RGB图像 所产生的RGB片段vi作为RGB
图像模态的输入; 此时, 一段视频中仅采样一个片段, 为了充分利用一段视频中的有效音频
信息, 将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;
其中, i=1, ···,N;
有监督对比学习模块的具体处 理过程是:
1) 、 模态特征提取: 视频i的RGB片段vi经过以r3d为基础框架的3D卷积网络后提取的特
征为
, 对应音频的梅尔频谱图ai经过音频的3D卷积网络后提取的特 征为
;
2) 、 自监督对比学习生成自监 督对比损失;
3) 、 有监督对比学习生成有监 督对比损失;
自监督对比学习生成自监 督对比损失的具体过程是:
正对{
,
}i=1,· · ·,N表示为: 来源于同一个视频 i的RGB片段特征
和对应音频所
产生的梅尔频谱图特征
; 负对{
,
}i,j=1,· · ·,N且i≠j∪{
,
}i,j=1,· · ·,N且i≠j表示为:
来源于视频 i产生的RGB片段特征
, 和所有来源于视频j(i≠j)所产生的RGB片段特征
以及梅尔频谱图特 征
; 视频的RGB图像模态的自监 督对比损失表示 为:
其中,
是标量温度参数, 其中
分子为所有正对样本距离和, 分母为所有正对以及负对样本距离和;
同理, 音频模态的自监 督对比损失为:
由公式(1) (2)得出整体自监 督对比损失为:
。
2.根据权利要求1所述的基于注意力 机制的跨模态特征融合系统, 其特征在于, 有监督
对比学习生成有监 督对比损失的具体过程是:
正对{
,
}i,j=1,· · ·,N且yi=yj∪{
,
}i,j=1,· · ·,N且i≠j且yi=yj表示为:
和所有来源于
同一类别的视频 i和视频j的RGB片段特征
以及音频所产生的梅尔频谱图特征
,
;权 利 要 求 书 1/3 页
2
CN 114329036 B
2其余的都为负对; 有监 督对比损失 公式如下:
视频的RGB图像模态的有监 督对比损失表示 为:
其中,
是标量温度参数, 其中分子为所有正对样本距离和, 分母为所有正对以及负对样本距
离和;
同理, 音频模态的有监 督对比损失为:
由公式(4) (5)得出整体有监 督对比损失为:
。
3.根据权利要求2所述的基于注意力 机制的跨模态特征融合系统, 其特征在于, 跨模态
特征融合模块接收来自不同模态的特征并学习全局上下文嵌入, 然后该嵌入用于重新校准
来自不同片段的输入特征, 使用从有监督对比学习框架中学习到的视频片段特征作为输
入, 将经过融合后的特 征作为输出, 通过交叉熵计算融合部分的损失函数。
4.根据权利要求3所述的基于注意力 机制的跨模态特征融合系统, 其特征在于, 跨模态
特征融合模块的具体处 理过程是:
一个视频i的两个模态分别为vi和ai, 从有监督对比学习框架中经过三维卷积网络提取
的特征是{
,
}, 为了利用这两个模态之间 的相关性, 连接这两个特征向量并通过全连
接层获得 联合表示:
其中 [·,·] 表示连接操作,
表示联合表示, Ws和bs是全连接层的权重和偏
差; 选择
来限制模型容量并增加其泛化能力, 为了利用在联合表示Zu中聚
合的全局上 下文信息, 通过一个全连接层预测它的激励信号:
权 利 要 求 书 2/3 页
3
CN 114329036 B
3
专利 一种基于注意力机制的跨模态特征融合系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:17:09上传分享