专利 一种少样本跨领域情感分析方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210661020.8 (22)申请日 2022.06.13 (71)申请人华南理工大学地址 510641 广东省广州市天河区五山路 381号 (72)发明人蔡毅　任浩鹏　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师陈嘉乐 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/211(2020.01) (54)发明名称一种少样本跨领域情感分析方法及装置 (57)摘要本发明公开了一种少样本跨领域情感分析方法及装置，其中方法包括：获取句子数据，将句子数据输入训练后的BERT编码器，获得第一特征向量；将句子数据输入训练后的GCN编码器，获得第二特征向量；对第一特征向量和第二特征向量进行特征融合，获得句子的向量表示；将句子的向量表示输入到训练后的少样本原型网络模型，输出句子的情感极性；本发明利用少样本学习技术捕捉领域共享特征以及领域特定特征，从而提高模型从源领域迁移到目标领域的情感预测效果。本发明可广泛应用于自然语言处理技术领域。权利要求书3页说明书10页附图2页 CN 115080688 A 2022.09.20 CN 115080688 A 1.一种少样本跨领域情感分析方法，其特征在于，包括以下步骤：获取句子数据，将句子数据输入训练后的BERT编码器，获得第一特征向量；将句子数据输入训练后的GCN编码器，获得第二特征向量；对第一特征向量和第二特征向量进行特征融合，获得句子的向量表示；将句子的向量表示输入到训练后的少样本原型网络模型，输出句子的情感极性；其中，所述少样本原型网络模型通过以下方式训练获得：获取预设的积极情感以及消极情感的标注样本，获取标注样本的句子向量表示，将句子向量表示分别映射到特征空间中，将相同极性的句子向量表示的平均向量作为代表对应情感极性的原型表示。 2.根据权利要求1所述的一种少样本跨领域情感分析方法，其特征在于，所述BERT编码器通过以下方式进行训练：获取源领域域或者目标领域的文本，对BERT编码器进行训练，以获得丰富的领域特征知识；其中，文本中每个句子的特征向量表示为： xw＝h[cls]＝BERT(x) 式中， x代表的是输入的句子， h[cls]表示的是BERT编码器句前特殊字符的隐向量表示， BERT为句子编码器。 3.根据权利要求1所述的一种少样本跨领域情感分析方法，其特征在于，所述GCN编码器通过以下方式训练：设计两个自监督任务，对GCN编码器进行训练；所述两个自监督任务包括关系分类任务和情感对齐分类任务；其中，关系分类任务为给定任意两节点，基于GCN编码器的关系分类模型能判断出这两节点的关系；情感对齐任务为给定两个方面词与观点词，基于 GCN编码器的情感对齐模型需要判断这两个方面词与观点词是否具有相同的情感极性；这两个自监督任务的目标是领域关系常识，以及学习方面观点对之间的情感对齐特征，从而获得包含背景常识和方面观点词情感对齐的特征向量。 4.根据权利要求3所述的一种少样本跨领域情感分析方法，其特征在于，关系分类任务中，节点特征向量由该节点的邻居节点表示融合获得，其融合过程表示如下：其中，代表节点i在关系r下的所有邻居节点， gi是随机初始化的初始节点特征向量，对其使用两步图卷积过程后，转换为hi； σ 表示的是Relu激活函数； l表示的是第l层图卷积， ci,r表示的是节点i的邻居节点个数，表示的是待训练的参数矩阵， xj表示节点j的特征向量表示，表示的是待训练的参数矩阵；关系分类任务产生的损失函数为：权　利　要　求　书 1/3 页 2 CN 115080688 A 2其中， s(vi,ri,j,vj)表示的是矩阵分析得分函数； Rr表示是关系r的向量表示； T表示的是图G的节点集合， y表示的是给定的节点i和节点j之间是否存在关系ri,j的关系，若是,y取值为1，若非， y要取值0；情感对齐分类任务产生的损失函数为：其中， N表示的是源领域与目标领域的无标注样本个数； Pk表示的是第k个无标注样本所包含的方面词 ‑情感词对。 5.根据权利要求1所述的一种少样本跨领域情感分析方法，其特征在于，还包括构建常识知识图谱的步骤：基于源领域与目标领域的无标注样本，以句子为单位，将句子中指定词性为名词、动词、形容词的单词作为链接种子，通过ConceptNet常识知识库链接出下一跳的知识三元组；最后，将所有句子所链接出的子图谱进行去重合，形成领域常识知识图谱，为跨领域情感分析提供知识支撑；其中，所构建的领域常识知识图谱表示为：其中，构建出图谱中的节点vi∈V，关系三元组(vi,ri,j,vj)∈φ，其中表示为两节点vi与vj关系， φ表示的是图谱G包含的所有三元组集合。 6.根据权利要求5所述的一种少样本跨领域情感分析方法，其特征在于，还包括以下步骤：采用注意力机制计算知识图谱中节点的重要程度，每个节点的重要程度表示为：其中， ei表示是是第i个节点的向量表示， αi表示的是第i个节点的重要程度， ek表示的是第k个节点的向量表示， Ni表示的是第i个节点的所有邻居节点集合。 7.根据权利要求1所述的一种少样本跨领域情感分析方法，其特征在于，所述对第一特征向量和第二特征向量进行特征融合，获得句子的向量表示，包括：拼接第一特征向量和第二特征向量，计算输入文本所有可能极性的概率，选择概率最大的情感标签作为最终的预测情感标签，完成情感分析任务的步骤中，每个句子的特征向量表示如下： x＝[xw； xg] 其中， xg是通过带有方面观点词情感对齐的常识知识向量， xw是BERT编码器产生的带有上下文信息的句子向量， [； ]表示拼接向量。 8.根据权利要求1所述的一种少样本跨领域情感分析方法，其特征在于，样本的句子向量表示输入所述少样本原型网络模型后，执行以下步骤：对于积极和消极情感类别的k个样本，计算出每个情感类别的原型：权　利　要　求　书 2/3 页 3 CN 115080688 A 3

专利 一种少样本跨领域情感分析方法及装置

专利一种少样本跨领域情感分析方法及装置