专利一种事件抽取方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210453456.8 (22)申请日 2022.04.27 (71)申请人苏州大学地址 215000 江苏省苏州市吴中区石湖西路188号 (72)发明人孔芳　田三川　周国栋　 (74)专利代理机构苏州市中南伟业知识产权代理事务所(普通合伙) 32257 专利代理师陈明 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/35(2020.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称一种事件抽取方法、装置及存储介质 (57)摘要本发明首先将事件触发词抽取和论元抽取统一为一个独立的跨度检测和分类处理模式，针对处理模式分别设计了一个非限制性抽取问题、一个限制性抽取问题和一组限制性分类问题，我们利用这些问题完成相应的跨度检测和分类任务。其次，我们将统一处理模式转换为两轮问答组件，在第一轮中，通过一个非限制性问题获得所有可能的跨度。在第二轮中，利用每个得到的跨度作为约束迭代得到相应的类型。最后，我们将两个组件进行双向堆叠并用于事件抽取任务上(一个方向是依次提取事件触发词和论元，而另一个方向首先识别论元，然后识别事件触发词)。通过两个方向上的联合训练，减少了错误级联，并有效地利用了事件触发词和论元之间的互补性。权利要求书3页说明书11页附图2页 CN 114936563 A 2022.08.23 CN 114936563 A 1.一种事件抽取方法，其特征在于，包括：构建触发词跨度检测和分类组件，利用触发词非限制性问题识别触发词跨度，并以该问题答案为约束条件，设计触发词限制性问题识别事件类型；构建论元跨度检测和分类组件，利用论元非限制性问题识别论元跨度，并以该问题答案为约束条件，设计论元限制性问题识别论元类型；将所述触发词跨度检测和分类组件和所述论元跨度检测和分类组件进行双向堆叠，构建事件抽取双向堆叠式问答框架，将触发词到论元的方向定义为正向，从论元到触发词的方向定义为反向；对于正向，以第一个所述触发词跨度检测和分类组件获得的答案为约束设计第一限制性问题识别该类触发词对应的论元，利用所述论元限制性问题识别论元类型；对于反向，以第一个所述论元跨度检测和分类组件获得的答案为约束设计第二限制性问题识别该类论元对应的触发词，利用所述触发词限制性问题识别触发词类型；基于正反两个方向对所述事件抽取双向堆叠式问答框架进行联合训练学习；将待抽取句子作为完成训练的事件抽取双向堆叠式问答框架的输入，输出触发词 ‑论元对。 2.根据权利要求1所述的事件抽取方法，其特征在于，所述触发词非限制性问题和所述论元非限制性问题均包括问题本身和问题的解释性描述信息。 3.根据权利要求1所述的事件抽取方法，其特征在于，所述事件抽取双向堆叠式问答框架采用BERT模型作为编码器，以特殊的标记[ CLS]和[SEP]将当前问题与所述待抽取句子连接，作为所述BERT模型的输入，得到预测当前问题答案所需的句子表征。 4.根据权利要求3所述的事件抽取方法，其特征在于，所述得到预测当前问题答案所需的句子表征后包括：若所述当前问题为跨度识别问题时，利用两个二元分类器来预测触发词跨度或论元跨度的开始和结束位置；若所述当前问题为类别分类问题时，对所述句子表征进行平均池化操作，并利用不同的线性分类器对所述触发词或所述论元进行分类。 5.根据权利要求4所述的事件抽取方法，其特征在于，所述两个二元分类器的损失函数为：其中input代表输入的长度， W表示开始或结束位置的权重， q表示前面提到的问题；所述线性分类器的损失函数为： p(yt|X， q)＝sigmo id(h1Wtc) p(ya|X， q)＝sigmo id(h1Wac) 其中Wtc和Wac代表触发词和论元的权重， h1表示被平均池化后的表征。 6.根据权利要求1所述的事件抽取方法，其特征在于，所述基于正反两个方向对所述事件抽取双向堆叠式问答框架进行联合训练学习包括：将训练样本输入所述事件抽取双向堆叠式问答框架；权　利　要　求　书 1/3 页 2 CN 114936563 A 2在正向上，对所述训练样本进行正向触发词跨度识别任务学习和触发词分类任务学习，其损失为并根据所述正向触发词跨度识别任务学习和触发词分类任务的学习结果进行正向论元跨度识别任务和论元分类任务的学习，其损失为在反向上，对所述训练样本进行反向论元跨度识别任务学习和论元分类任务学习，其损失为并根据所述反向论元跨度识别任务学习和论元分类任务的学习结果进行反向触发词跨度识别任务和触发词分类任务的学习，其损失为因此，所述联合训练学习的总损失为：其中，和是识别任务的损失和分类任务的损失，分别表示在框架正向方向上正向触发词跨度识别任务和正向论元跨度识别任务产生的损失，代表反向方向上反向触发词跨度识别任务和反向论元跨度识别任务的损失，表示触发词分类任务的损失，表示论元分类任务的损失。 7.根据权利要求1所述的事件抽取方法，其特征在于，所述输出触发词 ‑论元对包括：计算不同方向的触发词和论元跨度对的概率，假设触发词和论元跨度对的概率为p(t, a)，计算概率的函数如下：其中表示一个方向上的所有触发词和论元跨度对， T →A为正向， A →T为反向， t为触发词跨度， a为论元跨度；将正向部分和反向部分的结果合并作为输出：其中Rinter代表在两个方向上触发词和论元对的交集， Ediffer代表在两个方向上触发词和论元跨度对的差集，代表跨度对所对应的触发词和论元对， δ表示预设阈值。 8.一种事件抽取装置，其特征在于，包括：触发词跨度检测和分类组件构建模块，用于构建触发词跨度检测和分类组件，利用触发词非限制性问题识别触发词跨度，并以该问题答案为约束条件，设计触发词限制性问题识别事件类型；论元跨度检测和分类组件构建模块，用于构建论元跨度检测和分类组件，利用论元非限制性问题识别论元跨度，并以该问题答案为约束条件，设计论元限制性问题识别论元类型；双向堆叠模块，用于将所述触发词跨度检测和分类组件和所述论元跨度检测和分类组权　利　要　求　书 2/3 页 3 CN 114936563 A 3

专利 一种事件抽取方法、装置及存储介质

专利一种事件抽取方法、装置及存储介质