(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210293780.8
(22)申请日 2022.03.24
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 高盛祥 左江涛
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 40/216(2020.01)G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于GCN网络融合要素关联图的汉越新闻抽
取式摘要方法
(57)摘要
本发明涉及基于 GCN网络融合要素关联图的
汉越新闻抽取式摘要 方法, 属于自然语 言处理技
术领域。 本发明包括步骤: 首先结合新闻要素融
合词频、 句子相关性等特征对文本进行关联图构
建, 利用GRU网络进行文本词级和句子级双层编
码; 然后利用GCN网络将关联图信息和文本向量
表征进行卷积操作, 得到句子分类信息; 最后, 利
用句子分类和GRU网络获取的文档级簇分类设置
回归函数评估句子的得分, 使摘要抽取的任务转
化成依据句子显著性分值进行排序的问题, 获得
最终摘要句。 实验结果表明, 该方法在汉越多文
本摘要任务中取得了 很好的效果。
权利要求书4页 说明书10页 附图1页
CN 114579734 A
2022.06.03
CN 114579734 A
1.基于GCN网络 融合要素关联图的汉越新闻抽取式摘要方法, 其特征在于: 所述方法的
具体步骤如下:
Step1、 给文档中每个句子编码: 给出一个包含基于同一主题的汉越新 闻文档的平行语
料文档簇, 选择词、 句子双 层编码起 来对句子和文本进行向量表征;
Step2、 新闻要素的关联图构建: 给定汉语、 越南语新闻文档簇, 选择以句子为节点, 文
本间相似度为 边, 构建汉越双语新闻要素关联图;
Step3、 根据得到的句子编码输入和新 闻要素关联图, 通过GCN网络学习, 以此得到每一
个节点句子的分类结果, 即句子分类得分;
Step4、 计算得到文档簇中每个文档的表征, 将Step3的GCN最后一层输出向量作为输
入, 进行聚类; 然后通过计算, 得出每个句子和不同文档的相关性, 以此判定出该句子是否
能够作为该文档的摘要句子 。
2.根据权利要求1所述的基于GCN网络 融合要素关联图的汉越新闻抽取式摘要方法, 其
特征在于: 所述Step1的具体步骤为:
Step1.1、 给出一个包含基于同一主题的汉越新闻文档的平行语料文档簇cluster; 为
更好地获取句 子和文本的特征信息, 选择词、 句子双层编码起来对句 子和文本进行向量表
征;
Step1.2计算每个句子的编码表征: 每一个cluster包含两种语言的n个句子sn={s1,
s2,…,sn}, 其中每一句包含l个词wl={w1,w2,…,wl)},在每个时间步长t时刻, 上一时刻的
隐藏状态
和当前时刻的词嵌入wt得到当前时刻的隐藏状态
周期性地更新隐藏状
态:
其中, wt表示单词嵌入向量,
表示GRUsent的隐状态, 最后一层隐藏层输出的句子嵌
入表征为:
Step1.3、 将文档中的句子表征在一个矩阵X: 将xi作为每个句子的最终编码, 将给定文
档簇的所有句子嵌入被分组为节点特 征矩阵X:
其中, T代 表改文档簇中的第T个文档的序号, N代 表每篇文档中的句子编号。
3.根据权利要求1所述的基于GCN网络 融合要素关联图的汉越新闻抽取式摘要方法, 其
特征在于: 所述Step2的具体步骤为:
给定汉语、 越南语新闻文本簇, 选择以句子为节点, 文本间相似度为边, 构建汉越双语
新闻要素关联图, 表征为:
G={V,E,W}权 利 要 求 书 1/4 页
2
CN 114579734 A
2V={vi,vj|,1≤i≤n,1≤j≤m}
W={w(i,j),w(i1,in),w(j1,jm)|i1≠in,j1≠jm}
其中, V表示的是汉越双语新闻文本在集在图中对应的文本的集合, vi为中文新闻文本,
vj为越南语文本, E是汉越双语新闻集合中的新闻文档句子在图上的连线,
为汉语
文档句子之间的连线,
为越南语文档句子之间的连线,
为汉越双语文档
间的边, W为图中边的权重, 由新闻要素之间的相似度决定, 新闻的事件要素直接用常规标
准新闻文本涉及到的时间、 地 点、 人名等词汇;
在汉越双语新闻要素关联图模型中, 将节点间能够连通的条件设置为: 两篇新闻文本
包含相同的地点词语或人名词语或者两篇新闻的要素相似度的阈值设置为大于0.3, 即大
于0.3的两篇文档的要素相似度可以连线;
Step2.1、 分别计算汉越两种语言单文档见边的权重: 首先, 把能够表征新闻要素的词
语抽取出来进 行向量表征, 利用T F‑IDF的方法对特征向量的每一 维的权重进 行计算; 然后,
利用汉越新闻文档的空间向量 余弦相似度计算文档节点间的相似度;
TF‑IDF是一种信息检索与数据挖掘常用的加权算法,其中TF表示 “词频”, 即词语在文
档中出现的次数, 词语出现的频率越高, 其作为文档的分类依据的重要程度也会随之增 加;
其中, M表示文档x中所有词语的个数, N表示词语s在文档x中出现的次数;
IDF表示的是 “逆文档频率 ”, 用于评估关键词的普遍程度: 当一个词在大量文档中出现
时, 其IDF值越低; 反 之, 则越高; 具体地:
IDFs,x=log(X/XN)
X表示文档簇中文档的数目, XN表示文档簇中包 含词语s文本的数目;
TF‑IDF由词频TF与逆向文件频率IDF共同影响词的过滤和重要信息的保留; 其计算公
式为:
Ws,x=TFs,x*IDFs,x
其中, Ws,x表示在文本序列x中, 词语s中的特 征值;
同一篇文档节点间的权 重计算公式为:
其中,
分别表示文档x1、 x2中的第t个特征项的权重; 根据每一个项的权重便
可得到文档间的权 重w(i1,i2)和w(j1,j2);
Step2.2、 计算汉越双语新闻文档之间连接边的权 重:
首先, 利用词语相似度计算的方法对两种语言文档的要素进行抽取, 得到双语新闻要
素词语之间的相似度; 考虑到新闻通常围绕一些关键概念和实体展开, 对于相同新闻事件
的描述文本, 将包含部 分共同的概念和实体, 将其定义为要 素的一致性, 这种相似性为跨语
言新闻文本的关联性分析提供了有效的途径; 将抽取双语新闻要 素及其共现程度融入注意权 利 要 求 书 2/4 页
3
CN 114579734 A
3
专利 基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:56:31上传分享