说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210661020.8 (22)申请日 2022.06.13 (71)申请人 华南理工大 学 地址 510641 广东省广州市天河区五山路 381号 (72)发明人 蔡毅 任浩鹏  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 陈嘉乐 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/211(2020.01) (54)发明名称 一种少样本跨领域情感分析方法及装置 (57)摘要 本发明公开了一种少样本跨领域情感分析 方法及装置, 其中方法包括: 获取句子数据, 将句 子数据输入训练后的BERT编码器, 获得第一特征 向量; 将句子数据输入训练后的GCN编码器, 获得 第二特征向量; 对第一特征向量和第二特征向量 进行特征融合, 获得句子的向量表示; 将句子的 向量表示输入到训练后的少样 本原型网络模型, 输出句子的情感极性; 本发明利用少样本学习技 术捕捉领域共享特征以及领域特定特征, 从而提 高模型从源领域迁移到目标领域的情感预测效 果。 本发明可广泛应用于自然语言处理技术领 域。 权利要求书3页 说明书10页 附图2页 CN 115080688 A 2022.09.20 CN 115080688 A 1.一种少样本跨领域情感分析 方法, 其特 征在于, 包括以下步骤: 获取句子数据, 将句子数据输入训练后的BERT编码器, 获得第一特 征向量; 将句子数据输入训练后的GCN编码器, 获得第二特 征向量; 对第一特 征向量和第二特 征向量进行 特征融合, 获得句子的向量表示; 将句子的向量表示输入到训练后的少样本原型网络模型, 输出句子的情感极性; 其中, 所述少样本原型网络模型通过以下方式训练获得: 获取预设的积极情感以及消 极情感的标注样本, 获取标注样本的句 子向量表示, 将句 子向量表示分别映射到特征空间 中, 将相同极性的句子向量表示的平均向量作为代 表对应情感极性的原型表示。 2.根据权利要求1所述的一种少样本跨领域情 感分析方法, 其特征在于, 所述BERT编码 器通过以下 方式进行训练: 获取源领域域或者目标领域的文本, 对BERT编码器进行训练, 以获得丰富的领域特征 知识; 其中, 文本中每 个句子的特 征向量表示 为: xw=h[cls]=BERT(x) 式中, x代表的是输入的句子, h[cls]表示的是BERT编码器句前特殊字符的隐向量表示, BERT为句子编码器。 3.根据权利要求1所述的一种少样本跨领域情感分析方法, 其特征在于, 所述GCN编码 器通过以下 方式训练: 设计两个自监督任务, 对GCN编码器进行训练; 所述两个自监督任务包括关系分类任务 和情感对齐分类任务; 其中, 关系分类任务为给定任意两节点, 基于GCN编码器的关系分类模型能判断出这两 节点的关系; 情感对齐任务为给定两个方面词 与观点词, 基于 GCN编码器的情感对齐模型需 要判断这两个方面词 与观点词是否具有相同的情感极性; 这两个自监督任务的目标是领域 关系常识, 以及学习方面观点对之间的情感对齐特征, 从而获得包含背景常识和方面观点 词情感对齐的特 征向量。 4.根据权利要求3所述的一种少 样本跨领域情感分析方法, 其特征在于, 关系分类任务 中, 节点特 征向量由该节点的邻居节点表示融合获得, 其融合过程表示如下: 其中, 代表节点i在关系r下的所有邻居节点, gi是随机初始化的初始节点特征向量, 对其使用两步图卷积 过程后, 转换为hi; σ 表示的是Relu激 活函数; l表示的是第l层图卷积, ci,r表示的是节点i的邻居节点个数, 表示的是待训练的参数矩阵, xj表示节点j的特征 向量表示, 表示的是待训练的参数矩阵; 关系分类任务产生的损失函数为: 权 利 要 求 书 1/3 页 2 CN 115080688 A 2其中, s(vi,ri,j,vj)表示的是矩阵分析得分函数; Rr表示是关系r的向量表示; T表示 的 是图G的节 点集合, y表 示的是给定的节 点i和节点j之间是否存在关系ri,j的关系, 若是,y取 值为1, 若非, y要取值0; 情感对齐分类任务产生的损失函数为: 其中, N表示的是源领域与目标领域的无标注样本个数; Pk表示的是第k个无标注样本 所 包含的方面词 ‑情感词对。 5.根据权利要求1所述的一种少 样本跨领域情感分析方法, 其特征在于, 还包括构建常 识知识图谱的步骤: 基于源领域与目标领域的无标注样本, 以句子为单位, 将句子中指定词性为名词、 动 词、 形容词的单词作为链接种子, 通过ConceptNet常识知识库链接出下一跳的知识 三元组; 最后, 将所有句子所链接出的子图谱进 行去重合, 形成领域常识知识图谱, 为跨领域情感分 析提供知识 支撑; 其中, 所构建的领域常识知识图谱表示 为: 其中, 构建出图谱中的节 点vi∈V, 关系三元组(vi,ri,j,vj)∈φ, 其中 表示为两节 点vi与vj关系, φ表示的是图谱G包 含的所有三元组集 合。 6.根据权利要求5所述的一种少 样本跨领域情感分析方法, 其特征在于, 还包括以下步 骤: 采用注意力机制计算知识图谱中节点的重要程度, 每 个节点的重要程度表示 为: 其中, ei表示是是第i个节点的向量表示, αi表示的是第i个节点的重要程度, ek表示的 是第k个节点的向量表示, Ni表示的是第i个节点的所有邻居节点 集合。 7.根据权利要求1所述的一种少 样本跨领域情感分析方法, 其特征在于, 所述对第 一特 征向量和第二特 征向量进行 特征融合, 获得句子的向量表示, 包括: 拼接第一特征向量和第二特征向量, 计算输入文本所有可能极性的概率, 选择概率最 大的情感标签作为最终的预测情感标签, 完成情感分析任务的步骤中, 每个句 子的特征向 量表示如下: x=[xw; xg] 其中, xg是通过带有方面观点词情感对齐的常识知识向量, xw是BERT编码器产生的带有 上下文信息的句子向量, [; ]表示 拼接向量。 8.根据权利要求1所述的一种少 样本跨领域情感分析方法, 其特征在于, 样本的句子向 量表示输入所述少样本原型网络模型后, 执 行以下步骤: 对于积极和 消极情感类别的k个样本, 计算出每 个情感类别的原型: 权 利 要 求 书 2/3 页 3 CN 115080688 A 3

.PDF文档 专利 一种少样本跨领域情感分析方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种少样本跨领域情感分析方法及装置 第 1 页 专利 一种少样本跨领域情感分析方法及装置 第 2 页 专利 一种少样本跨领域情感分析方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:54:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。