全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211139018.0 (22)申请日 2022.09.19 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 孔万增 杨宇涛 唐佳佳 倪斌斌  戴玮成 朱莉  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱亚冠 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于模态空间同化和对比学习的多模 态情感分类方法 (57)摘要 本发明公开一种基于模态空间同化和对比 学习的多模态情感分类方法。 本发 明引入了同化 的概念, 利用由模态之间的互补信息组成的引导 向量来指引每个模态同时接近解空间。 该操作不 仅进一步提高搜索解空间的效率, 而且使得三种 模态的异构空间同构。 在空间同构 的过程中, 能 够在一定程度上有效平衡多个模态对最终解空 间的贡献。 在指导每个模态的时候, 该策略能使 模型更加关注情感特征, 这减少了模态内冗余, 构建多模态表示的难度也因此降低了。 其次, 本 发明还运用了监督对比学习来增强模型辨别不 同情绪差异的能力, 使 得模型能够捕捉到更为全 面的多模态情感上 下文。 权利要求书2页 说明书6页 附图2页 CN 115310560 A 2022.11.08 CN 115310560 A 1.一种基于模态空间同化和对比学习的多模态情感分类方法, 其特征在于包括以下步 骤: 步骤(1)、 获取多模态数据: 对多模态特征信息进行预处理, 抽取音频模态、 视频模态和文本模态的初级表征Ht、 Ha、 Hv; 步骤(2)、 构建To kenLearner模块获得引导向量: 每个模态m∈{t,a,v}均设有TokenLe arner模块, t,a,v分别为文本、 音频、 视频模态; 并 且这些TokenLeaner模块在每一次引导中都会被重复使用; 所述TokenLearner模块通过模 态的多头注意力得分计算出一个权 重图, 然后根据该权 重图来得到一个新的向量Zm: Zm=αm(MultiHead(Hm,Hm))Hm     式(4) 其中αm是一层一 维卷积并在卷积之后添加softmax函数, 和 分别是Q, K的权重, dk 表示Hm的维度, n代表 多头的数量; MultiHead(Q,K)表示多头注意力得分; headi表示第i头注 意力得分; A ttention(Q,K)是计算注意力得分的函数; 为了确保在Zm中的信息代表其对应模态的补充信息, 添加正交性约束对每个模态的 TokenLearner模块进行训练, 减少冗余的潜在表示, 并鼓励TokenLearner模块对多模态的 不同方面进行编码; 所述正交性约束定义 为: 其中 代表平方弗罗贝尼乌斯范 数; 通过计算Zm的加权平均值, 以获得引导向量Z, 其可公式如下: 其中wm是权重; 步骤(3)、 引导模态靠 近解空间: 根据步骤(2)得到的引导向量Z并行指导三个模态所处的空间往解空间靠近; 在每一次 的引导过程中, 引导向量Z会根据当前三个模态所处空间的状态进行实时更新; 更具体地 说, 对于第l次引导, 对每 个模态的指导后矩阵表示如下: 其中θm表示Transformer模块的模型参数, 表示 和Zl的拼接, 并且引导向量Z 对每个模态的引导由Transformer来完成; 将公式(7)拓展后具体所示:权 利 要 求 书 1/2 页 2 CN 115310560 A 2其中MSA表示多头自注意模块, L N表示层归一 化模块, MLP表示多层感知器; 提取经过L次引导得到的三个模态指导后矩阵中最后一行数据, 并将它们拼接成一个 多模态表示向量Hfinal; L表示最大引导次数; 步骤(4)、 通过监 督对比学习约束 多模态表示向量Hfinal: 复制多模态表示向量Hfinal的隐藏状态, 以形成增广表示 并去除它的梯度; 基于 上述机制, 对于将N个样本进行扩展后, 就有2N个样本; 表示如下: 其中 表示监督对比学习的损失函数, 是多视图 批次中任意样本的索引, τ∈R+表示用于控制类别分离的可调系数, P(i)是与i不同但具有 相同类别的样本集, 并且A(i)表示除去i之外的所有索引; SIM()是用于计算样本之间相似 性的函数; 步骤(5)、 获取分类结果: 多模态表示Hfinal通过全连接层获得最终预测 实现多模态情感分类。 2.根据权利要求1所述方法, 其特征在于训练过程中, 使用均 方误差损失来估计训练期 间的预测质量: 其中y表示真实标签; 整体损失 由 和 的加权和构成, 表示如下: 其中 和 分别表示情感分类任务的损失函数, 正交约束损失函数以及监 督对比学习的损失函数, α 、 β 、 γ分别是 和 的权重。 3.根据权利要求1所述方法, 其特 征在于步骤(1)中对文本模态预处 理采用BERT模型。 4.根据权利要求1所述方法, 其特征在于步骤(1)中对音频模态以及视频模态预处理采 用Transformer模型。 5.一种电子设备, 其特征在于, 包括处理器和存储器, 所述存储器存储有能够被所述处 理器执行 的机器可执行指令, 所述处理器执行所述机器可执行指令以实现权利要求1 ‑4任 一项所述的方法。 6.一种机器可读存储介质, 其特征在于, 该机器可读存储介质存储有机器可执行指令, 该机器可执行指 令在被处理器调用和执行时, 机器可执行指 令促使处理器实现权利要求 1‑ 4任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115310560 A 3

.PDF文档 专利 一种基于模态空间同化和对比学习的多模态情感分类方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于模态空间同化和对比学习的多模态情感分类方法 第 1 页 专利 一种基于模态空间同化和对比学习的多模态情感分类方法 第 2 页 专利 一种基于模态空间同化和对比学习的多模态情感分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。