专利一种基于模态空间同化和对比学习的多模态情感分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211139018.0 (22)申请日 2022.09.19 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人孔万增　杨宇涛　唐佳佳　倪斌斌　戴玮成　朱莉　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师朱亚冠 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种基于模态空间同化和对比学习的多模态情感分类方法 (57)摘要本发明公开一种基于模态空间同化和对比学习的多模态情感分类方法。本发明引入了同化的概念，利用由模态之间的互补信息组成的引导向量来指引每个模态同时接近解空间。该操作不仅进一步提高搜索解空间的效率，而且使得三种模态的异构空间同构。在空间同构的过程中，能够在一定程度上有效平衡多个模态对最终解空间的贡献。在指导每个模态的时候，该策略能使模型更加关注情感特征，这减少了模态内冗余，构建多模态表示的难度也因此降低了。其次，本发明还运用了监督对比学习来增强模型辨别不同情绪差异的能力，使得模型能够捕捉到更为全面的多模态情感上下文。权利要求书2页说明书6页附图2页 CN 115310560 A 2022.11.08 CN 115310560 A 1.一种基于模态空间同化和对比学习的多模态情感分类方法，其特征在于包括以下步骤：步骤(1)、获取多模态数据：对多模态特征信息进行预处理，抽取音频模态、视频模态和文本模态的初级表征Ht、 Ha、 Hv；步骤(2)、构建To kenLearner模块获得引导向量：每个模态m∈{t,a,v}均设有TokenLe arner模块， t,a,v分别为文本、音频、视频模态；并且这些TokenLeaner模块在每一次引导中都会被重复使用；所述TokenLearner模块通过模态的多头注意力得分计算出一个权重图，然后根据该权重图来得到一个新的向量Zm： Zm＝αm(MultiHead(Hm,Hm))Hm 式(4) 其中αm是一层一维卷积并在卷积之后添加softmax函数，和分别是Q， K的权重， dk 表示Hm的维度， n代表多头的数量； MultiHead(Q,K)表示多头注意力得分； headi表示第i头注意力得分； A ttention(Q,K)是计算注意力得分的函数；为了确保在Zm中的信息代表其对应模态的补充信息，添加正交性约束对每个模态的 TokenLearner模块进行训练，减少冗余的潜在表示，并鼓励TokenLearner模块对多模态的不同方面进行编码；所述正交性约束定义为：其中代表平方弗罗贝尼乌斯范数；通过计算Zm的加权平均值，以获得引导向量Z，其可公式如下：其中wm是权重；步骤(3)、引导模态靠近解空间：根据步骤(2)得到的引导向量Z并行指导三个模态所处的空间往解空间靠近；在每一次的引导过程中，引导向量Z会根据当前三个模态所处空间的状态进行实时更新；更具体地说，对于第l次引导，对每个模态的指导后矩阵表示如下：其中θm表示Transformer模块的模型参数, 表示和Zl的拼接，并且引导向量Z 对每个模态的引导由Transformer来完成；将公式(7)拓展后具体所示：权　利　要　求　书 1/2 页 2 CN 115310560 A 2其中MSA表示多头自注意模块， L N表示层归一化模块， MLP表示多层感知器；提取经过L次引导得到的三个模态指导后矩阵中最后一行数据，并将它们拼接成一个多模态表示向量Hfinal； L表示最大引导次数；步骤(4)、通过监督对比学习约束多模态表示向量Hfinal：复制多模态表示向量Hfinal的隐藏状态，以形成增广表示并去除它的梯度；基于上述机制，对于将N个样本进行扩展后，就有2N个样本；表示如下：其中表示监督对比学习的损失函数，是多视图批次中任意样本的索引， τ∈R+表示用于控制类别分离的可调系数， P(i)是与i不同但具有相同类别的样本集，并且A(i)表示除去i之外的所有索引； SIM()是用于计算样本之间相似性的函数；步骤(5)、获取分类结果：多模态表示Hfinal通过全连接层获得最终预测实现多模态情感分类。 2.根据权利要求1所述方法，其特征在于训练过程中，使用均方误差损失来估计训练期间的预测质量：其中y表示真实标签；整体损失由和的加权和构成，表示如下：其中和分别表示情感分类任务的损失函数，正交约束损失函数以及监督对比学习的损失函数， α 、 β 、 γ分别是和的权重。 3.根据权利要求1所述方法，其特征在于步骤(1)中对文本模态预处理采用BERT模型。 4.根据权利要求1所述方法，其特征在于步骤(1)中对音频模态以及视频模态预处理采用Transformer模型。 5.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1 ‑4任一项所述的方法。 6.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求 1‑ 4任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115310560 A 3

专利 一种基于模态空间同化和对比学习的多模态情感分类方法

专利一种基于模态空间同化和对比学习的多模态情感分类方法