专利基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210293780.8 (22)申请日 2022.03.24 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人高盛祥　左江涛　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 16/34(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01)G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法 (57)摘要本发明涉及基于 GCN网络融合要素关联图的汉越新闻抽取式摘要方法，属于自然语言处理技术领域。本发明包括步骤：首先结合新闻要素融合词频、句子相关性等特征对文本进行关联图构建，利用GRU网络进行文本词级和句子级双层编码；然后利用GCN网络将关联图信息和文本向量表征进行卷积操作，得到句子分类信息；最后，利用句子分类和GRU网络获取的文档级簇分类设置回归函数评估句子的得分，使摘要抽取的任务转化成依据句子显著性分值进行排序的问题，获得最终摘要句。实验结果表明，该方法在汉越多文本摘要任务中取得了很好的效果。权利要求书4页说明书10页附图1页 CN 114579734 A 2022.06.03 CN 114579734 A 1.基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法，其特征在于：所述方法的具体步骤如下： Step1、给文档中每个句子编码：给出一个包含基于同一主题的汉越新闻文档的平行语料文档簇，选择词、句子双层编码起来对句子和文本进行向量表征； Step2、新闻要素的关联图构建：给定汉语、越南语新闻文档簇，选择以句子为节点，文本间相似度为边，构建汉越双语新闻要素关联图； Step3、根据得到的句子编码输入和新闻要素关联图，通过GCN网络学习，以此得到每一个节点句子的分类结果，即句子分类得分； Step4、计算得到文档簇中每个文档的表征，将Step3的GCN最后一层输出向量作为输入，进行聚类；然后通过计算，得出每个句子和不同文档的相关性，以此判定出该句子是否能够作为该文档的摘要句子。 2.根据权利要求1所述的基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法，其特征在于：所述Step1的具体步骤为： Step1.1、给出一个包含基于同一主题的汉越新闻文档的平行语料文档簇cluster；为更好地获取句子和文本的特征信息，选择词、句子双层编码起来对句子和文本进行向量表征； Step1.2计算每个句子的编码表征：每一个cluster包含两种语言的n个句子sn＝{s1, s2,…,sn}，其中每一句包含l个词wl＝{w1,w2,…,wl)},在每个时间步长t时刻，上一时刻的隐藏状态和当前时刻的词嵌入wt得到当前时刻的隐藏状态周期性地更新隐藏状态: 其中， wt表示单词嵌入向量，表示GRUsent的隐状态，最后一层隐藏层输出的句子嵌入表征为： Step1.3、将文档中的句子表征在一个矩阵X：将xi作为每个句子的最终编码，将给定文档簇的所有句子嵌入被分组为节点特征矩阵X: 其中， T代表改文档簇中的第T个文档的序号， N代表每篇文档中的句子编号。 3.根据权利要求1所述的基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法，其特征在于：所述Step2的具体步骤为：给定汉语、越南语新闻文本簇，选择以句子为节点，文本间相似度为边，构建汉越双语新闻要素关联图，表征为： G＝{V,E,W}权　利　要　求　书 1/4 页 2 CN 114579734 A 2V＝{vi,vj|,1≤i≤n,1≤j≤m} W＝{w(i,j),w(i1,in),w(j1,jm)|i1≠in,j1≠jm} 其中， V表示的是汉越双语新闻文本在集在图中对应的文本的集合， vi为中文新闻文本, vj为越南语文本， E是汉越双语新闻集合中的新闻文档句子在图上的连线，为汉语文档句子之间的连线，为越南语文档句子之间的连线，为汉越双语文档间的边， W为图中边的权重，由新闻要素之间的相似度决定，新闻的事件要素直接用常规标准新闻文本涉及到的时间、地点、人名等词汇；在汉越双语新闻要素关联图模型中，将节点间能够连通的条件设置为：两篇新闻文本包含相同的地点词语或人名词语或者两篇新闻的要素相似度的阈值设置为大于0.3，即大于0.3的两篇文档的要素相似度可以连线； Step2.1、分别计算汉越两种语言单文档见边的权重：首先，把能够表征新闻要素的词语抽取出来进行向量表征，利用T F‑IDF的方法对特征向量的每一维的权重进行计算；然后，利用汉越新闻文档的空间向量余弦相似度计算文档节点间的相似度； TF‑IDF是一种信息检索与数据挖掘常用的加权算法,其中TF表示 “词频”，即词语在文档中出现的次数，词语出现的频率越高，其作为文档的分类依据的重要程度也会随之增加；其中， M表示文档x中所有词语的个数， N表示词语s在文档x中出现的次数； IDF表示的是 “逆文档频率 ”，用于评估关键词的普遍程度：当一个词在大量文档中出现时，其IDF值越低；反之，则越高；具体地: IDFs,x＝log(X/XN) X表示文档簇中文档的数目， XN表示文档簇中包含词语s文本的数目； TF‑IDF由词频TF与逆向文件频率IDF共同影响词的过滤和重要信息的保留；其计算公式为： Ws,x＝TFs,x*IDFs,x 其中， Ws,x表示在文本序列x中，词语s中的特征值；同一篇文档节点间的权重计算公式为：其中，分别表示文档x1、 x2中的第t个特征项的权重；根据每一个项的权重便可得到文档间的权重w(i1,i2)和w(j1,j2)； Step2.2、计算汉越双语新闻文档之间连接边的权重：首先，利用词语相似度计算的方法对两种语言文档的要素进行抽取，得到双语新闻要素词语之间的相似度；考虑到新闻通常围绕一些关键概念和实体展开，对于相同新闻事件的描述文本，将包含部分共同的概念和实体，将其定义为要素的一致性，这种相似性为跨语言新闻文本的关联性分析提供了有效的途径；将抽取双语新闻要素及其共现程度融入注意权　利　要　求　书 2/4 页 3 CN 114579734 A 3

专利 基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法

专利基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法