专利一种融合句法结构信息的关键词生成方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210415569.9 (22)申请日 2022.04.20 (71)申请人东南大学地址 211189 江苏省南京市玄武区四牌楼 2 号 (72)发明人杨鹏　戈妍妍　方海生　于晓潭　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师叶涓涓 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种融合句法结构信息的关键词生成方法及装置 (57)摘要本发明公开了一种融合句法结构信息的关键词生成方法及装置，能够为新闻文章自动地生成关键词。本发明首先使用爬虫工具采集新闻文章，并采取人工标注参考关键词构造出新闻文章数据集；然后对文本进行预处理，依存句法分析和过滤停用词；接着基于循环神经网络的顺序编码器和基于图卷积网络的图编码器分别获取文章的上下文语义和结构特征，并利用聚类方法将文本分为包含不同子主题部分，并利用多个基于注意力机制的解码器并行生成关键词；采样交叉熵损失进行模型参数优化；最后基于训练后的模型对待处理的新闻文章进行自动关键词生成。本发明通过句法结构信息弥补顺序编码存在的长距离单词依赖信息损失问题，从而提高生成关键词的质量。权利要求书2页说明书5页附图1页 CN 114692605 A 2022.07.01 CN 114692605 A 1.一种融合句法结构信息的关键词生成方法，其特征在于，包括如下步骤：步骤1：新闻文章采集通过爬虫工具收集多个媒体平台的新闻文章，积累样本数据集，然后对样本数据集进行过滤以减少样本重复率；对样本集中每一个样本采用人工标注构造训练样例：新闻文章和标准关键词；步骤2：文本预处理对文章进行分句、分词，利用句法依存分析工具得到句法分析结果；其次根据句法分析结构构造句法图，将文本单词映射为图中节点，单词之间的关系通过边体现；步骤3：训练基于句法结构信息融合的关键词生成模型首先通过顺序编码和结构编码双编码方式学习单词表示；然后子图聚类网络根据整个文本的含义，对文本内容进行划分，从而为每个解码器构建独特的子主题表示；之后带注意力机制的顺序解码器根据生成的子主题表示生成相应的关键词；最后利用交叉熵作为损失函数对模型参数进行优化；步骤4：对待处理的新闻文章生成关键词对于需预测关键词的新闻文章，首先用句法依存分析工具分析句法，再构建文本句法图，将新闻文章原文与句法图输入到步骤3中训练好的关键词生成模型中，生成该新闻文章的关键词。 2.根据权利要求1所述的融合句法结构信息的关键词生成方法，其特征在于，所述步骤 3包括如下子步骤：子步骤3‑1，构建输入层，输入层接收文本单词序列作为输入，利用预训练的word2vec 模型将每个词映射为对应的词向量，得到原文单词向量表示序列EW；子步骤3‑2，构建文本编码层，采用一个两层BiGRU对词向量序列Ew进行顺序语义编码，得到词向量序列Ew的隐层状态向量BiGRU(Ew)：其中ut为词嵌入，表示前一个GRU单元的状态向量，表示下一个GRU单元的状态向量；采用GCN网络学习构建好的文本图数据； GCN利用邻居节点聚合方式进行节点信息更新，定义如下： Hl＝ReLU(AHl‑1Wl) 其中A是文本图的邻接矩阵， Hl表示当前层的输出结果，用单词的表示初始化每个节点表示， Wl是训练参数；对于L层的图卷积网络，节点获得了L阶邻居节点的信息，因此在节点的特征向量表示中具有了结构信息；子步骤3‑3，构建子图生成层，在文本图基础上，对文本图进行拆分聚类，得到多个包含文章不同方面的子图；对于每个节点，利用下式计算节点属于每个子图的概率： assigments＝softmax(WaHL+ba) 其中， HL表示GCN最后一层的输出， Wa、 ba是可学习参数， a表示计算注意力权重的网络，权　利　要　求　书 1/2 页 2 CN 114692605 A 2softmax是归一化函数；之后，对节点表示加权求和可获得子图的表示：子步骤3‑4，构建关键词解码层；采用多个相同的解码器并行解码方式生成关键词；其中，单个解码器采用单向GRU实现，并结合复制机制；在解码时间步j时，根据上一个单词的表示uj‑1和上一个时刻隐层状态sj‑1，计算得到当前隐藏状态： sj＝GRU(uj‑1， sj‑1) 之后，利用注意力机制，计算输入文本中每个单词的注意力权重： αj＝softmax(ej) 其中，表示文本序列第i个单词经过BiGRU计算得到的特征向量， g为子主题特征向量， eij衡量预测的第 j个单词与原文第i个单词相关程度， ej表示预测第 j个单词时原文单词的注意力权重；通过对单词特征向量加权求和，得到当前上下文表示向量：其中， Hs为原文单词特征向量构成的特征矩阵；然后，结合子图表示、上下文向量和隐藏状态，得到单词在词表上的分布： Pvocab＝softmax(Wg[sj； cj； g]+bg) 其中， g为计算得到词表分布的网络；最终，时间步j时，预测单词的最后分布如下式所示： Pfinal＝(1‑λj)·Pvocab+λj·Pcopy λj＝sigmoid(Wλ[cj； uj‑1； sj； g]+bλ) 其中Pcopy＝αj， λj表示从原文复制单词的概率， λ是计算复制概率的网络；子步骤3‑5，构建损失函数层，本层生成的关键词与参考关键词的交叉熵损失作为所述模型的训练损失函数；按如下损失函数计算公式得到本组样本的训练损失：其中， D为训练数据集， x为输入文本， y为目标关键词， θ 为模型的参数集合；子步骤3‑6，训练所述模型；采用随机初始化的方式初始化所有待训练参数，在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数，当训练损失不再下降或训练轮数超过一定轮数时，模型训练结束。 3.根据权利要求1所述的融合句法结构信息的关键词生成方法，其特征在于，所述句法依存分析工具为Han LP。 4.一种融合句法结构信息的关键词生成装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，该计算机程序被加载至处理器时实现权利要求1‑3中任意一项所述的融合句法结构信息的关键词生成方法。权　利　要　求　书 2/2 页 3 CN 114692605 A 3

专利 一种融合句法结构信息的关键词生成方法及装置

专利一种融合句法结构信息的关键词生成方法及装置