全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210453456.8 (22)申请日 2022.04.27 (71)申请人 苏州大学 地址 215000 江苏省苏州市吴中区石湖西 路188号 (72)发明人 孔芳 田三川 周国栋  (74)专利代理 机构 苏州市中南伟业知识产权代 理事务所(普通 合伙) 32257 专利代理师 陈明 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/35(2020.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称 一种事件抽取方法、 装置及存 储介质 (57)摘要 本发明首先将事件触发词抽取和论元抽取 统一为一个独立的跨度检测和分类处理模式, 针 对处理模式分别设计了一个非限制性抽取问题、 一个限制性抽取问题和一组限制性分类问题, 我 们利用这些问题完成相应的跨度检测和分类任 务。 其次, 我们将统一处理模式转换为两轮问答 组件, 在第一轮中, 通过一个非限制性问题获得 所有可能的跨度。 在第二轮中, 利用每个得到的 跨度作为约束迭代得到相应的类型。 最后, 我们 将两个组件进行双向堆叠并用于事件抽取任务 上(一个方向是依次提取事件触发词和论元, 而 另一个方向首先识别论元, 然后识别事件触发 词)。 通过两个方向上的联合训练, 减少了错误级 联, 并有效地利用了事件触发词和论元之间的互 补性。 权利要求书3页 说明书11页 附图2页 CN 114936563 A 2022.08.23 CN 114936563 A 1.一种事 件抽取方法, 其特 征在于, 包括: 构建触发词跨度检测和分类组件, 利用触发词非限制性问题识别触发词跨度, 并以该 问题答案为约束条件, 设计 触发词限制性问题 识别事件类型; 构建论元跨度检测和分类组件, 利用论元非限制性问题识别论元跨度, 并以该问题答 案为约束条件, 设计论元限制性问题 识别论元类型; 将所述触发词跨度检测和分类组件和所述论元跨度检测和分类组件进行双向堆叠, 构 建事件抽取双向堆叠式问答框架, 将触发词到论元 的方向定义为正向, 从论元到触发词的 方向定义 为反向; 对于正向, 以第 一个所述触发词跨度检测和分类组件获得的答案为约束设计第 一限制 性问题识别该类 触发词对应的论元, 利用所述 论元限制性问题 识别论元类型; 对于反向, 以第 一个所述论元跨度检测和分类组件获得的答案为约束设计第 二限制性 问题识别该类论元对应的触发词, 利用所述触发词限制性问题 识别触发词类型; 基于正反两个方向对所述事 件抽取双向堆叠式问答框架进行 联合训练学习; 将待抽取句子作为完成训练的事件抽取双 向堆叠式问答框架 的输入, 输出触发词 ‑论 元对。 2.根据权利要求1所述的事件抽取方法, 其特征在于, 所述触发词非限制性问题和所述 论元非限制性问题均包括问题本身和问题的解释性描述信息 。 3.根据权利要求1所述的事件抽取方法, 其特征在于, 所述事件抽取双向堆叠式问答框 架采用BERT模 型作为编码器, 以特殊的标记[ CLS]和[SEP]将当前问题与所述待抽取句子连 接, 作为所述BERT模型的输入, 得到预测当前问题答案所需的句子表征。 4.根据权利要求3所述的事件抽取方法, 其特征在于, 所述得到预测当前问题答案所需 的句子表征后包括: 若所述当前问题为跨度识别问题时, 利用两个二元分类器来预测触发词跨度或论元跨 度的开始和结束位置; 若所述当前问题为类别分类问题时, 对所述句子表征进行平均池化操作, 并利用不同 的线性分类 器对所述触发词或所述 论元进行分类。 5.根据权利要求4所述的事件抽取方法, 其特征在于, 所述两个二元分类器的损失函数 为: 其中input代表输入的长度, W表示 开始或结束位置的权 重, q表示前面 提到的问题; 所述线性分类 器的损失函数为: p(yt|X, q)=sigmo id(h1Wtc) p(ya|X, q)=sigmo id(h1Wac) 其中Wtc和Wac代表触发词和论元的权 重, h1表示被平均池化后的表征。 6.根据权利要求1所述的事件抽取方法, 其特征在于, 所述基于正反两个方向对所述事 件抽取双向堆叠式问答框架进行 联合训练学习包括: 将训练样本 输入所述事 件抽取双向堆叠式问答框架;权 利 要 求 书 1/3 页 2 CN 114936563 A 2在正向上, 对所述训练样本进行正向触发词跨度识别任务学习和触发词分类任务学 习, 其损失为 并根据所述正向触发词跨度识别任务学习和触发词分 类任务的学习结果进行正向论元跨度识别任务和论元分类任务的学习, 其损失为 在反向上, 对所述训练样本进行反向论元跨度识别任务学习和论元分类任务学习, 其 损失为 并根据所述反向论 元跨度识别任务 学习和论 元分类任务的学 习结果进行反向 触发 词跨度识别任务 和触发 词分类任务的 学 习 , 其 损失为 因此, 所述联合训练学习的总损失为: 其中, 和 是识别任务的损失和分类任务的损失, 分别表示在 框架正向方向上正向触发词跨度识别任务和正向论元跨度识别任务产生的损失, 代表反向方向上反向触发词跨度识别任务和反向论元跨度识别任 务的损失, 表示触发词分类任务的损失, 表示论元分类任务的损失。 7.根据权利要求1所述的事 件抽取方法, 其特 征在于, 所述输出触发词 ‑论元对包括: 计算不同方向的触发词和论元跨度对的概率, 假设触发词和论元跨度对的概率为p(t, a), 计算概率的函数如下: 其中 表示一个方向上的所有触 发词和论元跨度对, T →A为正向, A →T为反 向, t为触发词跨度, a为 论元跨度; 将正向部分和反向部分的结果 合并作为输出: 其中Rinter代表在两个方向上触发词和论元对的交集, Ediffer代表在两个方向上触发词 和论元跨度对的差集, 代表跨度对所对应的触发词和论元对, δ表示 预设阈值。 8.一种事 件抽取装置, 其特 征在于, 包括: 触发词跨度检测和分类组件构建模块, 用于构建触发词跨度检测和分类组件, 利用触 发词非限制性问题识别触发词跨度, 并以该问题答案为约束条件, 设计触发词限制性问题 识别事件类型; 论元跨度检测和分类组件构建模块, 用于构建论元跨度检测和分类组件, 利用论元非 限制性问题识别论元跨度, 并以该问题答案为约束条件, 设计论元限制性问题识别论元类 型; 双向堆叠模块, 用于将所述触发词跨度检测和分类组件和所述论元跨度检测和分类组权 利 要 求 书 2/3 页 3 CN 114936563 A 3

.PDF文档 专利 一种事件抽取方法、装置及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种事件抽取方法、装置及存储介质 第 1 页 专利 一种事件抽取方法、装置及存储介质 第 2 页 专利 一种事件抽取方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。