全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211028476.7 (22)申请日 2022.08.25 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 余正涛 赵庆珏 朱恩昌 黄于欣  线岩团  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 融入文档图和事件图的新闻核心事件检测 方法 (57)摘要 本发明涉及融入文档图和事件图的新闻核 心事件检测方法, 属于自然语言处理技术领域。 本发明首先通过构建文档图和事件图来建模新 闻文本的全局语义特征和事件之间的关联特征。 然后, 通过图卷积神经网络捕获高阶邻域信息, 获得文档表征和事件表征。 最后, 将得到的文档 表征和事件表征使用交叉注意力进一步捕获事 件全局语义信息。 本发明能够快速、 准确的获取 新闻的核心信息, 是新闻事件分析的基础, 同时 也对新闻文本摘要、 智 能问答、 阅读理解以及生 成事件链等众多下游任务至关重要。 权利要求书3页 说明书10页 附图2页 CN 115510184 A 2022.12.23 CN 115510184 A 1.融入文档图和事件图的新闻核心事件检测方法, 其特征在于: 所述融入文档图和事 件图的新闻核心事 件检测方法的具体步骤如下: Step1、 使用公开数据集纽约时报标注数据集, 对数据集进行 预处理, 构成实验数据集; Step2、 以新闻文本为单位构建文档图和事件图建模新闻文本的全局语义特征和事件 之间的关联 特征, 通过图卷积神经网络GCN分别获得文档表征和事 件表征; Step3、 在Step2的基础上, 将得到的文档表征和事件表征使用交叉注意力进行深度融 合, 进一步获得事 件的高维表征, 从而建模新闻事 件的核心性, 检测新闻文本核心事 件。 2.根据权利要求1所述的融入文档图和事件图的新闻核心事件检测方法, 其特征在于: 所述Step1的具体步骤为: Step1.1、 采用纽约时报标注数据 集, 数据集共包含1855659篇文章, 为了完成核心事件 检测, 筛选出该数据集中包 含摘要的6 64996篇新闻文本; Step1.2、 根据新闻文本中标注的事件核心词是否出现在摘 要中, 判定该新 闻文本是否 为核心事 件; Step1.3、 核心事件标注完成之后, 过滤掉不包含核心事件的新闻文本, 构建包含 607996篇新闻文本的数据集。 3.根据权利要求1所述的融入文档图和事件图的新闻核心事件检测方法, 其特征在于: 所述Step2的具体步骤为: Step2.1、 以新闻篇章为单位, 使用Step1中的语料作为输入, 以文档中的词为顶点, 词 的共现关系为边构建文档图 以文档中的事件为顶点, 如果事件之间包含相同 的事件要素, 则两个事 件通过其共享事 件要素连接构建事 件图Ge=(Ve,Ee); Step2.2、 利用Step2.1获得的文档图和事件图通过图卷积神经网络将顶点特征信息在 上下文中传播和更新, 获得高阶的文档表征hd和事件表征he。 4.根据权利要求3所述的融入文档图和事件图的新闻核心事件检测方法, 其特征在于: 所述Step2.1的具体步骤为: Step2.1.1、 对 于每一篇新闻篇章 使用BERT将文档D中的每 一个词wi∈D初始 化编码为词表征xi, 以词为顶点, 词共现关系为边, 最终文档图表示为 其中Vd (|Vd|=n)是顶点 集合, Ed为边的集合, 同时也 为每个顶点构造一条自反边(v,v)∈Ed; Step2.1.2、 事件要素能唯一表示一个事件, 对于事件图Ge=(Ve,Ee), 其中顶点为新闻 中的事件, 表示为e=concat(arg1,arg2...argl,t,type), l为事件e的事件要素arg的数量, t为当前事件触发词, type为当前事件类型, 边为共享事件要素关系, 其中Ve(|Ve|=m)是顶 点集合, Ee为边的集合, 每一个事 件顶点都建立 一条自反边(v,v)∈Ee。 5.根据权利要求3所述的融入文档图和事件图的新闻核心事件检测方法, 其特征在于: 所述Step2.2的具体步骤为: Step2.2.1、 利用Step2.1中获得的文档图 通过多层GCN聚合更大邻域的 信息, 实现更高阶的特征交互; 对于一层文档图, 相邻层之间的特征变换为 其中, 是归一化的邻接矩阵, Ad是图Gd的邻接矩阵, Dd是Ad的度矩阵, Dii=∑jAij;权 利 要 求 书 1/3 页 2 CN 115510184 A 2是包含所有顶点n及其特征的矩阵, 其中k是词特征的维度, 每一行的 是v 的特征向量; 是权重矩阵, d为图卷积隐藏层维度; ρ 为激活函数; 叠加多层GCN能获得更高阶的邻域信息如 其中, l为图卷积的层数, 最终 获得文档特 征 Step2.2.2、 利用2.1中获得的事件图Ge=(Ve,Ee), 对于一层事件图, 其相邻之间的特征 变换为 其中 是归一化的邻接矩阵, Ae是图Ge的邻接矩阵, De是Ae的度矩 阵; 是包含所有顶点m及其特征的矩阵, 其中k是词特征的维度; 是权重 矩阵, d为图卷积隐藏层维度; ρ 为激活函数; 叠加多层GCN能获得更高阶的事件邻域信息如 其中l为图卷积的层数, 最终获得事件特征 6.根据权利要求1所述的融入文档图和事件图的新闻核心事件检测方法, 其特征在于: 所述Step3的具体步骤为: Step3.1、 交叉注意力共享文档和事 件之间的相似矩阵, 表示 为 Step3.2、 通过Step3.1获得的相似矩阵S和Step2获得的文档表征hd和事件表征he计算 文档‑事件注意力 和事件‑文档注意力 Step3.3、 通过拼接Step3.2中获得的文档 ‑事件注意力和文档 ‑事件注意力获得事件感 知节点表征进行核心事 件检测。 7.根据权利要求6所述的融入文档图和事件图的新闻核心事件检测方法, 其特征在于: 所述Step3.1的具体步骤为: 交叉注意力共享文档和事件之间的相 似矩阵 hd和he分别是从最后一层GCN获 得的文档特征和事件特征, fa是一个线性层, av g‑1代表在最后一层进行平均, 代表两个矩 阵在对应位置元 素进行乘积; 8.根据权利要求6所述的融入文档图和事件图的新闻核心事件检测方法, 其特征在于: 所述Step3.2的具体步骤为: Step3.2.1、 在Step3.1的基础上, 计算文档 ‑事件注意力 即计算对每一个事 件而言, 文档中的哪些词和事件最相关, softmax为归一化指数函数, ·代表矩阵乘法, maxcol表示获取矩阵列上的最大值, 即获得文档中与事件最相关的词, 将相似矩阵转变为权 利 要 求 书 2/3 页 3 CN 115510184 A 3

PDF文档 专利 融入文档图和事件图的新闻核心事件检测方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融入文档图和事件图的新闻核心事件检测方法 第 1 页 专利 融入文档图和事件图的新闻核心事件检测方法 第 2 页 专利 融入文档图和事件图的新闻核心事件检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。