全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111666534.4 (22)申请日 2021.12.31 (71)申请人 北京小米移动软件 有限公司 地址 100085 北京市海淀区西二 旗中路33 号院6号楼8层018号 申请人 北京小米松果电子有限公司 (72)发明人 代文 花新宇 陈帅  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 代理人 贺晓蕾 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/211(2020.01) G06K 9/62(2022.01) (54)发明名称 事件抽取方法、 装置、 电子设备及可读存储 介质 (57)摘要 本公开涉及一种事件抽取方法、 装置、 电子 设备及可读存储介质, 该方法包括: 通过训练样 本训练得到事件类型 ‑事件触发词联合模型, 通 过事件类型 ‑事件触发词联合模 型识别验证样本 得到预测事件类型集合和预测事件触发词集合, 预测事件类型集合和预测事件触发词集合作为 额外特征融入到事件论元识别当中, 多个基于事 件类型的事件论元抽取模型和多个基于事件触 发词的事件论元抽取模型分别对验证样本中的 句子文本进行事件抽取, 得到每个句子文本的多 个第一事件抽取结果, 从得到的多个第一事件抽 取结果确定所述句子文本的事件抽取结果, 提高 了事件抽取的准确率、 效率的同时降低了人/物 力成本, 避免了过于依赖领域经验。 权利要求书5页 说明书22页 附图10页 CN 114328838 A 2022.04.12 CN 114328838 A 1.一种事 件抽取方法, 其特 征在于, 包括: 获取样本数据; 所述样本数据包括多个句子文本, 所述多个句子文本的事件类型和事 件触发词, 所述多个句 子文本的事件类型组成标准事件类型集合, 所述多个句 子文本的事 件触发词组成标准事 件触发词集 合, 所述样本数据分为训练样本和验证样本; 通过所述训练样本训练事件类型 ‑事件触发词联合模型; 所述事件类型 ‑事件触发词联 合模型用于识别句子文本中的事 件类型和事 件触发词; 利用所述事件类型 ‑事件触发词联合模型识别所述验证样本得到预测事件类型集合和 预测事件触发词集 合; 通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽 取模型, 以及通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发 词的事件论元抽取模型; 对于所述验证样本 中的每一个句子文本, 通过所述预定数量个基于事件类型的事件论 元抽取模型以及所述预测事件类型集合对所述句子文本进 行事件抽取, 得到所述预定数量 个第一事件抽取结果, 以及通过所述预定数量个基于事件触发词的事件论元抽取模型以及 所述预测事件触发词集合对所述句子文本进 行事件抽取, 得到所述预定数量个第一事件抽 取结果; 根据得到的多个所述第一事 件抽取结果确定所述句子文本的事 件抽取结果。 2.根据权利要求1所述方法, 其特征在于, 所述样本数据中还包括所述多个句子文本的 标注, 所述 通过所述训练样本训练事 件类型‑事件触发词联合模型的步骤 包括: 对于所述训练样本中的每一个句子文本: 对所述句子文本进行 预处理, 得到所述句子文本的特 征表示向量; 将所述句子文本的特征表示向量输入至所述事件类型 ‑事件触发词联合模型的输出 层, 得到所述输出层输出的所述句子文本属于各个事 件类型的概 率; 将所述句子文本的特征表示向量输入至条件随机场CRF层, 得到所述CRF层输出的所述 句子文本的标注之间的转移概 率及似然概 率; 根据所述句子文本属于各个事件类型的概率、 所述句子文本的标注、 所述句子文本的 标注之间的转移概 率及似然概 率得到所述事 件类型‑事件触发词联合模型的损失函数; 根据所述损失函数训练所述事 件类型‑事件触发词联合模型。 3.根据权利要求1所述方法, 其特征在于, 所述对所述句子文本进行预处理, 得到所述 句子文本的特 征表示向量的步骤 包括: 在所述句子文本的句首添加起始字符, 在所述句子文本的句末添加结束字符, 得到添 加字符后的句子文本; 将所述添加字符后的句子文本输入至所述事件类型 ‑事件触发词联合模型, 以通过所 述事件类型 ‑事件触发词 联合模型对所述句 子文本中每个字符进行语义学习, 得到所述句 子文本的表示向量; 对所述表示向量进行最大池化处 理得到所述句子文本的所述特 征表示向量。 4.根据权利要求2所述方法, 其特 征在于, 所述损失函数的计算公式包括: L= λLtype+(1‑λ )Ltrigger 其中, λ为比例系数; Ltype为事件类型识别的损失函数,权 利 要 求 书 1/5 页 2 CN 114328838 A 2{1<=i<=T}, T为所述训练样本中事件 类型的种类的 数量, yi为所述句子文本的事件类型i的标注结果, pi为所述句子文本属于事件类型i的概 率; Ltrigger为事件触发词识别的损失函数, 为所述句子文 本的标注序列, 为所述句 子文本中第n个字符的标注, 为 的 可信度分数, 为所述句子文本中第j个字符对应 的标注为 的似然概 率, 为所述句子文本中从 到 的转移概 率矩阵。 5.根据权利要求1所述方法, 其特征在于, 所述利用所述事件类型 ‑事件触发词联合模 型识别所述验证样本得到预测事 件类型集 合和预测事 件触发词集 合的步骤 包括: 对于所述验证样本中的每一个句子文本: 利用所述事件类型 ‑事件触发词联合模型识别所述句子文本属于各个事件类型的概 率; 筛选出大于第 一阈值的所述概率所对应的事件类型, 作为所述句子文本的预测事件类 型; 利用所述事件类型 ‑事件触发词联合模型得到所述句子文本的事件触发词的标注序列 的可信度分数; 筛选出所述可信度分数最大的标注序列 所对应的事件触发词, 作为所述句子文本的预 测事件触发词; 集合所述验证样本 中的每一个句子文本的预测事件类型得到所述预测事件类型集合, 集合所述验证样本中的每一个句子文本的预测事 件触发词得到所述预测事 件触发词集 合。 6.根据权利要求1所述方法, 其特 征在于, 所述方法还 包括: 将所述样本数据均分为预定数量份; 选择所述预定数量份中任意一份作为所述验证样本, 剩下的样本数据作为所述训练样 本。 7.根据权利要求6所述方法, 其特征在于, 所述通过所述训练样本及所述标准事件类型 集合训练预定数量个 基于事件类型的论元抽取模型的步骤 包括: 扩展所述训练样本 中句子文本的事件角色和事件论元的位置标注, 得到扩展后的第 一 位置标注, 以及扩展位置标注后的第一句 子文本; 所述第一位置标注包括: 事件类型、 事件 角色和所述 位置标注; 对于所述训练样本中的每一个所述第一句子文本: 获取所述第一句子文本的标准事 件类型; 将所述标准事件类型与对应的所述第 一句子文本形成的句对作为输入数据, 利用所述 基于事件类型的论元抽取模型的损失函数训练所述基于事件类型的论元抽取模型, 得到所 述预定数量个 基于事件类型的论元抽取模型。权 利 要 求 书 2/5 页 3 CN 114328838 A 3

.PDF文档 专利 事件抽取方法、装置、电子设备及可读存储介质

文档预览
中文文档 38 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 事件抽取方法、装置、电子设备及可读存储介质 第 1 页 专利 事件抽取方法、装置、电子设备及可读存储介质 第 2 页 专利 事件抽取方法、装置、电子设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:44:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。