全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210909839.1 (22)申请日 2022.07.29 (71)申请人 广东工业大 学 地址 510090 广东省广州市越秀区东 风东 路729号 (72)发明人 阳爱民 王纪刚 林楠铠 白期风  何俊亨  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 郑堪泳 (51)Int.Cl. G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种用于方面级情感分析的统一生成框架 的构建方法 (57)摘要 本发明提供一种用于方面级情感分析的统 一生成框架的构建方法, 该方法选择需要处理的 ABSA任务和模型的范式, 通过选 择隐式术语处理 构建模型的目标输出, 第二步使用预训练模型T5 的编码解码架构得到模型的预测输出和目标输 出求交叉熵损失进行训练, 测试阶段, 对模型的 输出通过数据分割处理得到预测的各个情感元 素, 最后对不符合实际情况的情感元素进行修正 得到的最终预测, 实现了通过具体的ABSA任务预 测出其相应的情感元 素。 权利要求书2页 说明书10页 附图2页 CN 115455976 A 2022.12.09 CN 115455976 A 1.一种用于方面级情感分析的统一 生成框架的构建方法, 其特 征在于, 包括以下步骤: S1: 选择对应的ABSA任务和范式, 数据预处 理; S2: 对含有隐式术语的文本句子进行处理, 通过ABSA任务和范式的不同将原始输出格 式转为相应的目标序列Y; S3: 构建编码解码器架构神经网络; S4: 将处理后的文本句子输入到编码解码器架构的网络中, 输出模型预测的序列Y ′, 和 学习到的权 重参数; S5: 使用验证集验证神经网络在训练集上学习到的参数结果, 保存在测试集上效果最 好的那个epoc h的参数作为 最终参数集; S6: 使用最终参数集预测 测试集的方面级情感元组。 2.根据权利要求1所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S1的过程包括: 使用公开数据集ACOS, ASQP, 数据集涵盖包括一个餐厅领域和一个笔记本电脑领域的 文本句子; 用于处理ABSA的最新子任务方面情感四元组提取, 旨在提取评论句子中的所有 情感四元组; 情感四元组包括方面类别, 方面术语, 意见术语和情绪极性四个情感元素, 将 每个样本中的文本句子转化为词id列表构 造模型输入, 将原始格式标签索引从输入文本句 子中提取情感元组构造模型输出 标签Y, 其中Y是包 含文本句子所有情感四元组的序列。 3.根据权利要求2所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S1中, 通过将方面级别情感分析转化为端到端的文本生成任务, 所有子任务 都 可以表述为以文本句子X={x1,x2,...,xn}作为输入并输出目标序列Y={y1,y2,...,yn}的 形式, 其中y0是句首标记, n表示句子 长度, 不同的ABSA子任务都通过如下公式表述: 4.根据权利要求3所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S2的过程是: 对于含有隐式的方面术语和意见术语的目标序列Y, 分别将其映射为隐式代词it和 null, 否则保持原 始的自然语言形式, 通过映射 函数f完成该操作: 将隐式方面术语替换为it是为了更符合真实的情况,使得目标输出从原始类格式转换 为自然语言表达, 在为每个情感元素定义特定的投影函数f之后, 将目标情感四元组转换为 自然语言形式的句子, 以促进模型的训练。 5.根据权利要求4所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S2中, 在情感四元组提取任务中, 对于语义样式范式, 将列表类型的情感四元 组原始格式转化为类似于自然句子 “{ac}is{sp}bec ause{ot}was{ops} ”的序列, 对于抽取 范式, 将原始的输出格式Y转化为 “(at,ac,op,sp) ”格式的序列, 这类似于直接提取预期的 情感元素, 但以生成文本/字符串的方式; 任务这样能够帮助预训练模型更好地捕获输入的 全局语义, 如果输入句子X具有多个情感四元组, 首先根据选择的范式将 每个情感四元组转权 利 要 求 书 1/2 页 2 CN 115455976 A 2化为如上所述的目标序列, 然后将每个情感四元组的序列与特殊符号[SEP]连接以形成最 终目标序列Y ′。 6.根据权利要求5所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S3的过程是: 使用T5模型的编码解码架构, 编码器由N个相同层的堆栈组成, 每层有两个子层, 第一 个是多头自注意机制, 第二个是 的全连接前馈网络, 在两个子层中的每一个周围使用残差 连接, 然后进行层归一化, 将文本句子X={ x1,x2,...,xi}输入到编码器中得到隐藏状态He, 在句子开头(<s>)和句子结尾(</s>)标记将分别添加到X的开头和结尾, 忽略方程中的<s> 标记, 编码器部分如下: He=Encoder([x1,x2,...,xi]) 其中He∈Ri×d,d为隐藏维度, xi是单词token表示; 解码器部分将编码器输出He和之前的解码器输出Y<t拼接作为输入得到 其中Y<t是一 个toke序列, 具体的解码器 计算表示 为如下公式: 其中 通过 和训练的权 重参数计算获得令牌的概 率分布如下: 7.根据权利要求6所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S 3中, 应用softmax函数得到每个token的概率分布,从而得到整个模型的预测 序列输出Y ″, 将预测输出Y ″和label序列Y ′计算交叉熵损失对 模型进行训练。 8.根据权利要求7所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S4中, 使用验证集验证神经网络在训练集上学习到的参数结果, 保存在测试集 上效果最好的参数作为最终测试模型; 在测试集阶段, 首先将模型预测的目标序列Y ′通过 情感四元组复原操作得到对应的每个四元组, 接下来对不符合实际情况的预测采用术语修 正策略。 9.根据权利要求8所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S4中, 对于预测错误的方面类别和情感极性, 在预定义的类别中找出最相似的 类别进行替换, 如果是方面术语和意见术语在输入文本句子X找出最相似的span进 行替换, 寻找相似span使用的是Levenshtein距离, 将最后得到的四元组列表和真实标签四元组列 表标进行对比最终结果输出。 10.根据权利要求8所述的用于方面级情感分析的统一生成框架的构建方法, 其特征在 于, 所述步骤S 6中, 在测试集中, 将模 型预测的目标序列Y ′通过元组复原和修正策略的方法 得到与的Y一样格式进行验证最终测试 结果输出。权 利 要 求 书 2/2 页 3 CN 115455976 A 3

PDF文档 专利 一种用于方面级情感分析的统一生成框架的构建方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于方面级情感分析的统一生成框架的构建方法 第 1 页 专利 一种用于方面级情感分析的统一生成框架的构建方法 第 2 页 专利 一种用于方面级情感分析的统一生成框架的构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。