(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210661020.8
(22)申请日 2022.06.13
(71)申请人 华南理工大 学
地址 510641 广东省广州市天河区五山路
381号
(72)发明人 蔡毅 任浩鹏
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 陈嘉乐
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 40/211(2020.01)
(54)发明名称
一种少样本跨领域情感分析方法及装置
(57)摘要
本发明公开了一种少样本跨领域情感分析
方法及装置, 其中方法包括: 获取句子数据, 将句
子数据输入训练后的BERT编码器, 获得第一特征
向量; 将句子数据输入训练后的GCN编码器, 获得
第二特征向量; 对第一特征向量和第二特征向量
进行特征融合, 获得句子的向量表示; 将句子的
向量表示输入到训练后的少样 本原型网络模型,
输出句子的情感极性; 本发明利用少样本学习技
术捕捉领域共享特征以及领域特定特征, 从而提
高模型从源领域迁移到目标领域的情感预测效
果。 本发明可广泛应用于自然语言处理技术领
域。
权利要求书3页 说明书10页 附图2页
CN 115080688 A
2022.09.20
CN 115080688 A
1.一种少样本跨领域情感分析 方法, 其特 征在于, 包括以下步骤:
获取句子数据, 将句子数据输入训练后的BERT编码器, 获得第一特 征向量;
将句子数据输入训练后的GCN编码器, 获得第二特 征向量;
对第一特 征向量和第二特 征向量进行 特征融合, 获得句子的向量表示;
将句子的向量表示输入到训练后的少样本原型网络模型, 输出句子的情感极性;
其中, 所述少样本原型网络模型通过以下方式训练获得: 获取预设的积极情感以及消
极情感的标注样本, 获取标注样本的句 子向量表示, 将句 子向量表示分别映射到特征空间
中, 将相同极性的句子向量表示的平均向量作为代 表对应情感极性的原型表示。
2.根据权利要求1所述的一种少样本跨领域情 感分析方法, 其特征在于, 所述BERT编码
器通过以下 方式进行训练:
获取源领域域或者目标领域的文本, 对BERT编码器进行训练, 以获得丰富的领域特征
知识; 其中, 文本中每 个句子的特 征向量表示 为:
xw=h[cls]=BERT(x)
式中, x代表的是输入的句子, h[cls]表示的是BERT编码器句前特殊字符的隐向量表示,
BERT为句子编码器。
3.根据权利要求1所述的一种少样本跨领域情感分析方法, 其特征在于, 所述GCN编码
器通过以下 方式训练:
设计两个自监督任务, 对GCN编码器进行训练; 所述两个自监督任务包括关系分类任务
和情感对齐分类任务;
其中, 关系分类任务为给定任意两节点, 基于GCN编码器的关系分类模型能判断出这两
节点的关系; 情感对齐任务为给定两个方面词 与观点词, 基于 GCN编码器的情感对齐模型需
要判断这两个方面词 与观点词是否具有相同的情感极性; 这两个自监督任务的目标是领域
关系常识, 以及学习方面观点对之间的情感对齐特征, 从而获得包含背景常识和方面观点
词情感对齐的特 征向量。
4.根据权利要求3所述的一种少 样本跨领域情感分析方法, 其特征在于, 关系分类任务
中, 节点特 征向量由该节点的邻居节点表示融合获得, 其融合过程表示如下:
其中,
代表节点i在关系r下的所有邻居节点, gi是随机初始化的初始节点特征向量,
对其使用两步图卷积 过程后, 转换为hi; σ 表示的是Relu激 活函数; l表示的是第l层图卷积,
ci,r表示的是节点i的邻居节点个数,
表示的是待训练的参数矩阵, xj表示节点j的特征
向量表示,
表示的是待训练的参数矩阵;
关系分类任务产生的损失函数为:
权 利 要 求 书 1/3 页
2
CN 115080688 A
2其中, s(vi,ri,j,vj)表示的是矩阵分析得分函数; Rr表示是关系r的向量表示; T表示 的
是图G的节 点集合, y表 示的是给定的节 点i和节点j之间是否存在关系ri,j的关系, 若是,y取
值为1, 若非, y要取值0;
情感对齐分类任务产生的损失函数为:
其中, N表示的是源领域与目标领域的无标注样本个数; Pk表示的是第k个无标注样本 所
包含的方面词 ‑情感词对。
5.根据权利要求1所述的一种少 样本跨领域情感分析方法, 其特征在于, 还包括构建常
识知识图谱的步骤:
基于源领域与目标领域的无标注样本, 以句子为单位, 将句子中指定词性为名词、 动
词、 形容词的单词作为链接种子, 通过ConceptNet常识知识库链接出下一跳的知识 三元组;
最后, 将所有句子所链接出的子图谱进 行去重合, 形成领域常识知识图谱, 为跨领域情感分
析提供知识 支撑;
其中, 所构建的领域常识知识图谱表示 为:
其中, 构建出图谱中的节 点vi∈V, 关系三元组(vi,ri,j,vj)∈φ, 其中
表示为两节
点vi与vj关系, φ表示的是图谱G包 含的所有三元组集 合。
6.根据权利要求5所述的一种少 样本跨领域情感分析方法, 其特征在于, 还包括以下步
骤:
采用注意力机制计算知识图谱中节点的重要程度, 每 个节点的重要程度表示 为:
其中, ei表示是是第i个节点的向量表示, αi表示的是第i个节点的重要程度, ek表示的
是第k个节点的向量表示, Ni表示的是第i个节点的所有邻居节点 集合。
7.根据权利要求1所述的一种少 样本跨领域情感分析方法, 其特征在于, 所述对第 一特
征向量和第二特 征向量进行 特征融合, 获得句子的向量表示, 包括:
拼接第一特征向量和第二特征向量, 计算输入文本所有可能极性的概率, 选择概率最
大的情感标签作为最终的预测情感标签, 完成情感分析任务的步骤中, 每个句 子的特征向
量表示如下:
x=[xw; xg]
其中, xg是通过带有方面观点词情感对齐的常识知识向量, xw是BERT编码器产生的带有
上下文信息的句子向量, [; ]表示 拼接向量。
8.根据权利要求1所述的一种少 样本跨领域情感分析方法, 其特征在于, 样本的句子向
量表示输入所述少样本原型网络模型后, 执 行以下步骤:
对于积极和 消极情感类别的k个样本, 计算出每 个情感类别的原型:
权 利 要 求 书 2/3 页
3
CN 115080688 A
3
专利 一种少样本跨领域情感分析方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:52上传分享