专利一种基于结构注意力增强机制的虚假评论识别模型

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210304001.X (22)申请日 2022.03.25 (71)申请人电子科技大学长三角研究院（衢州）地址 324000 浙江省衢州市柯城区芹江东路288号1幢18楼申请人衢州海易科技有限公司 (72)发明人吴磊　钟朝泽　刘明　吴少智　龚海刚　王晓敏　陈鹏　单文煜　 (74)专利代理机构北京天奇智新知识产权代理有限公司 1 1340 专利代理师肖会 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06F 40/211(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于结构注意力增强机制的虚假评论识别模型 (57)摘要本发明涉及一种基于结构注意力增强机制的虚假评论识别模型，它包括层次化语义网络和结构注意力增强机制网络；所述层次化语义网络以预训练的词向量为输入层，通过层次化神经网络学习评论文本词 ‑句‑段的文本表示，词 ‑句层利用词嵌入特征学习评论文本的句子表示，完成词语级别的建模，句 ‑段层通过词 ‑句层的句子向量生成评论文本的整体段落表示，完成语篇级别的建模；所述结构注意力增强机制网络用于学习上下文的连贯性矩阵和对文本结构单元做非前后文关系的自由语序的增强表示。本发明着重对评论文本的词 ‑句‑段的层次化结构进行了特征提取，并在层次表示中嵌入结构注意力增强机制，以增强弱结构单元的非线性语义表达。权利要求书2页说明书6页附图3页 CN 114625842 A 2022.06.14 CN 114625842 A 1.一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：它包括用于层次化分阶段文本表示学习的层次化语义网络，以及嵌入层次化语义网络中到对文本结构下的词和句子进行增强表示学习的结构注意力增强机制网络；所述层次化语义网络以预训练的词向量为输入层，通过层次化神经网络学习评论文本词‑句‑段的文本表示，词‑句层利用词嵌入特征学习评论文本的句子表示，完成词语级别的建模，句‑段层通过词 ‑句层的句子向量生成评论文本的整体段落表示，完成语篇级别的建模；所述结构注意力增强机制网络用于学习上下文的连贯性矩阵和对文本结构单元做非前后文关系的自由语序的增强表示。 2.根据权利要求1所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述层次化语义网络包括Embedding层、 GRU层和Pooling层；所述Embedding层用于将句子里的每个单词表示成固定且维度相同的词向量；所述GRU层用于对对前向输入序列的词学习向量和后向输入序列的词学习向量进行向量拼接得到词的编码向量；所述Pooling 层通过平均值池化对结构注意力增强机制网络语义增强后的所有词进行平均值操作。 3.根据权利要求2所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述结构注意力增强机制网络嵌入到所述GRU层和Pooling层之间，用于学习上下文的连贯性矩阵和对文本结构单元做非前后文关系的自由语序的增强表示。 4.根据权利要求1所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述层次化语义网络具体实现的步骤包括：给定一个由n个句子的文档d＝[d1,d2,...,dn]，每个句子si都由m个单词[wi1,wi2,..., wim]构成； Embedding层通过Word2vec模型通过训练未标注的评论文本语料得到单词的向量化词典库，获取单词wij表示为wij＝WE·I[wij]，其中， WE为经过预训练得到的词向量矩阵， I[ ·] 表示通过词典库查询到词wij的索引； GRU层通过得到前向输入序列的词学习向量和得到后向输入序列的词学习向量，并通过进行向量拼接得到词的编码向量wij，其中，表示前向输入序列的词学习向量，表示后向输入序列的词学习向量； Pooling层通过对语义增强后的所有词进行平均值操作。 5.根据权利要求3所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述结构注意力增强机制网络包括单元依赖学习模块和单元语义增强模块；所述单元依赖学习模块用于对词级和句子级的依赖关系矩阵进行计算，通过长距离或非前后文下的自由词序下构建文本不连续结构；所述单元语义增强模块用于通过构建语法树的方式对词之间的量化矩阵进行学习分配，为具有弱结构信息的文本生成层次化的上下文信息。 6.根据权利要求5所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征权　利　要　求　书 1/2 页 2 CN 114625842 A 2在于：所述单元依赖学习模块实现的具体步骤包括：将词的语义提取层获取的GRU层每一步输出的句子si＝[wi1,wi2,…,wij,…wim]作为词的语义表达 k表示GRU隐层维度；通过结构注意力机制学习词间注意力矩阵A∈Rm×m获取词之间的依赖关系，并通过uip＝ φ(Wp·wim+bp)、 uiq＝φ(Wc·win+bq)和对矩阵A进行学习，其中， Apq表示wip和wiq 的父节点概率(1≤p,q≤m,p≠q)， φ为非线性激活函数， Wp∈Rm×m和Wc∈Rm×m分别为父子节点变换映射矩阵， bf和bc为对应的偏置值；通过uj＝φ(wr·wij+br)和计算根节点的概率，其中， Wr∈R1×k为根节点映射矩阵，对句子中所有的词计算其作为根节点的概率为 7.根据权利要求5所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述单元语义增强模块实现的具体步骤包括：将由GRU层输出的语义向量划分为两个部分其中表示文本依赖学习，表示词更新语义；通过和计算得到结构中词在句子中所有父子词的非线性上下文表示向量，表示文档树结构中作为根节点的词嵌入向量。权　利　要　求　书 2/2 页 3 CN 114625842 A 3

专利 一种基于结构注意力增强机制的虚假评论识别模型

专利一种基于结构注意力增强机制的虚假评论识别模型