专利一种基于决策融合的多模态情感分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210724880.1 (22)申请日 2022.06.24 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人刘博　季新婵　王慧娜　李金梦　朱念　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 专利代理师刘萍 (51)Int.Cl. G06V 40/16(2022.01) G06K 9/00(2022.01) G06V 10/80(2022.01) (54)发明名称一种基于决策融合的多模态情感分类方法 (57)摘要一种基于决策融合的多模态情感分类方法属于情感分类技术领域。本发明通过对不同模态数据的特征提取和基于统计分析的特征筛选方式来建立单模态数据的特征集，然后将其输入分类模型并获得最优子分类器，然后在决策级别进行多个子分类器的融合。本发明综合考虑了所有子分类器，并根据各个分类器的性能来进行权重更新，在权重更新方式上，本发明通过计算各个分类器的累计损失来考量子分类器性能，对性能优越的分类器给予奖励，并对错分的分类器给予惩罚，实现一种综合子分类器的历史表现和当前迭代的表现来进行权重更新的方式，对各个分类器的权重赋值更加科学合理。本发明实现了更准确的多模态分类方法，综合多模态数据使模型更具解释性。权利要求书2页说明书6页附图3页 CN 115205930 A 2022.10.18 CN 115205930 A 1.一种基于决策融合的多模态情感分类方法，其特征在于，包括以下步骤：步骤1、获取数据集；获取一组多模态数据和对应标签数据，多模态数据包括音频、图像或/和文本类型，且各模态数据之间互相对应；步骤2、多模态数据特征提取；对原始各模态数据，根据数据类型选择不同的方式进行特征提取；步骤3、构建多模态数据特征集；提取到多模态特征后，采用基于统计学的方法对其从单变量分析与多变量分析两个方面进行特征筛选，从而获取各个单模态数据中有意义的特征；步骤4、将步骤3得到的各单模态特征集与标签输入支持向量机SVM、决策树、随机森林、逻辑回归模型进行训练，得到分类准确率最高的子分类器并保存；步骤5、对获取的各子分类器进行决策级别的融合，将各子分类器的当前准确率与历史累计损失均纳入考虑，来综合比较各个子分类器的性能与稳定性，采用一种权重自学习的方式训练各个子分类器的权重。 2.根据权利要求1所述的方法，其特征在于，步骤2具体包含以下步骤：步骤2.1、对于获取的原始音频数据，对其进行特征提取；使用协同语音分析库 COVAREP，从音频中提取梅尔倒谱系数MFCCs、音高跟踪和浊音/清音分割特征、声门源参数、峰值斜率参数和最大色散商特征；步骤2.2、对于获取的原始图像数据，对其进行特征提取；使用面部动作编码系统FACS 来进行面部表情的特征提取，包括面部标记、面部动作单元、头部姿势和视线轨迹；步骤2.3、对于获取的原始文本数据，对其使用基于Transformer的双向编码器表征 BERT来进行特征提取；作为备选，模态数据中若包含视频数据，对其从音频、图像、文本三个方面按以上步骤 2.1‑2.3来进行特征提取。 3.根据权利要求1所述的方法，其特征在于，，步骤3具体包含以下步骤：步骤3.1、对于特征值均为数值的模态数据，对其进行标准化处理，将其中的每一个特征结合患者类别信息，使用一种基于信噪比的指标来对每一个特征进行度量，认为信噪比值越大，则该特征越重要；信噪比计算公式为：式中代表第n个特征的信噪比值， m表示类别数， μi(fn)和 μj(fn)表示特征fn在第i 类和第j类的平均值， δi(fn)和 δi(fn)分别表示特征fn在第i类和第j类的标准差，式代表比较总次数；根据得到的每个特征的SNR，选SNR>0.6的特征进行特征间的相关性分析；对于相关性高于0.6的两个特征，选择其中方差更小的一个删除；步骤3.2、对于特征值为等级或类别等非数值类型的特征，对其实行基于分类类别的卡方分析和费希尔fisher检验，选择在两种统计分析结果中在不同类别均有显著性差异、 p值均小于0.05的特征作为最终特征；权　利　要　求　书 1/2 页 2 CN 115205930 A 2步骤3.3、对各模态数据进行整合，并对非数值类型的特征进行one‑hot独热编码。 4.根据权利要求1所述的方法，其特征在于，，步骤5具体包含以下步骤：步骤5.1、对各个子分类器的权重进行初始化，设置为wi＝1/k， wi代表第i个子分类器的权重， k为子分类器个数；对损失进行初始化， lossi＝0， lossi代表第i个子分类器的累计损失；步骤5.2、对于有n个样本的集合X＝{x1,x2,...,xn}，每次取xj∈X，将xj的k类特征分别输入k个子分类器，得出每个子分类器在每一个类别上的概率分数；表示第i个子分类器在类别q上的预测分数，计算样本xj在k个子分类器的属于类别q的加权预测分数，并获取各类别加权分数集合： WS＝{WS1,WS2,...WSm} 其中， WSq为样本xj在k个子分类器上预测结果属于类别q 的加权分数， wi代表第i个子分类器的当前权重； WS为样本xj在k个子分类器上属于各个类别的加权分数集合，其中， m表示类别数；获得最大预测分数所属类别，即加权融合后的模型的预测结果： y＝argmax{WS} 其中， argmax()函数实现获取集合中最大值的索引，此处即可获得最大预测分数所属类别；步骤5.3、判断得到的类别标签是否与真实标签一致，如果一致，则分类正确，继续下面的步骤；否则分类错误，舍弃当前样本，返回步骤5.2进行下一个样本的迭代；步骤5.4、对于上述分类结果错误的l个分类器，进行权重更新，给予惩罚：其中， n为训练的总样本数， l 为错分的子分类器数；对于上述分类结果正确的子分类器，更新累计损失：其中，表示第i个子分类器在预测类别y上的预测分数；之后根据累计损失从小到大排序，对前l个分类器，进行权重更新，给予奖励：其中， n为训练的总样本数， l 为错分的子分类器数；步骤5.5、返回步骤5.2，开始对下一个样本进行上述操作，直至遍历完成所有样本，得到最终各个子分类器的最终权重并保存。权　利　要　求　书 2/2 页 3 CN 115205930 A 3

专利 一种基于决策融合的多模态情感分类方法

专利一种基于决策融合的多模态情感分类方法