(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211298886.3
(22)申请日 2022.10.21
(71)申请人 中国科学院空天信息创新研究院
地址 100190 北京市海淀区北四环西路19
号
(72)发明人 孙显 金力 张泽群 李晓宇
马豪伟 魏楷文 耿雪冬
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 郭梦雅
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于持续学习的事件抽取的模 型训练、 事件
抽取的方法
(57)摘要
本公开提供了一种基于持续学习的事件抽
取的模型训练、 事件抽取的方法、 装置及设备, 属
于自然语言处理技术领域, 其中, 该方法包括: 获
取文本流数据集; 将文本流数据集输入至预训练
的语言模型和自注意力机制中进行处理, 得到与
文本流数据集中文本对应的第一融合特征向量;
采用知识蒸馏的方式, 利用第一融合特征向量训
练待训练的基于持续学习的事件抽取模型的学
生网络和教师网络, 得到基于持续学习的事件抽
取模型, 通过知识蒸馏框架实现知识迁移学习,
利用历史增强特征转移网络使事件抽取模型能
够在学习新事件知识的同时不会遗忘已经学习
过的历史事件知识, 在对新增事件类型检测的同
时仍可以对历史事件类型进行检测, 实现持续性
事件学习和检测。
权利要求书3页 说明书19页 附图7页
CN 115544210 A
2022.12.30
CN 115544210 A
1.一种基于持续学习的事 件抽取的模型训练方法, 包括:
获取文本流数据集, 所述文本流数据集包括第0~第t ‑1个模型已经记忆的历史文本流
数据和第t ~第n个需要判识的新增文本流数据, 其中, t≥1, n≥t;
将所述文本流数据集输入至预训练 的语言模型和自注意力 机制中进行处理, 得到与 所
述文本流数据集中文本对应的第一融合特 征向量;
采用知识蒸馏的方式, 利用所述第 一融合特征向量训练待训练 的基于持续学习的事件
抽取模型的学生网络和教师网络, 得到基于持续学习的事 件抽取模型, 包括:
将第t个所述第一融合特征向量输入至所述待训练 的基于持续学习的事件抽取模型的
学生网络中, 得到第t个第一特 征向量;
通过历史增强特征转移网络, 将所述第t个第一特征向量映射至第t ‑1个所述第一特征
向量, 得到第t ‑1个第二特 征向量;
将前t‑1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教
师网络中, 得到前t ‑1个第三特 征向量;
根据所述第t个第一特 征向量和有标签文本流数据, 得到第一损失值;
根据所述第t ‑1个第二特 征向量和前t ‑1个第三特 征向量, 得到第二损失值;
将所述第一损失值和第二损失值加 和, 得到总损失值;
利用所述总损失值来训练所述待训练的基于持续学习的事件抽取模型的学生网络和
教师网络, 得到基于持续学习的事 件抽取模型。
2.根据权利要求1所述的方法, 其中, 获取 所述文本流数据集, 包括:
获取文本流数据;
对所述获取文本流数据进行清洗, 得到无 标签文本流数据;
对所述无 标签文本流数据进行 标注, 得到有标签文本流数据;
将所述有标签文本流数据和无 标签文本流数据进行融合, 得到文本流数据集。
3.根据权利要求1所述的方法, 其中, 所述将所述文本流数据集输入至预训练 的语言模
型和自注意力机制中, 得到与所述文本流数据集中文本对应的第一融合特 征向量包括:
将所述文本流数据集中的每个文本流数据输入基于预训练 的语言模型中, 输出与 所述
文本流数据对应的文本流特征向量, 得到n个所述文本流特征向量, 每个所述文本流特征向
量中包括 不同子句分别对应的第一特 征子向量;
针对每个所述文本流特征向量, 利用自注意力 机制对所述文本流特征向量中的第 一特
征子向量进行融合, 得到与所述文本流数据集中文本对应的第一融合特 征向量。
4.根据权利要求1所述的方法, 其中, 所述历史增强特征转移网络由全连接层神经网络
和非线性激活层组成。
5.根据权利要求1所述的方法, 还 包括:
对训练完成的基于持续学习的事 件抽取模型进行 更新, 所述更新包括:
将训练完成的基于持续学习的事 件抽取模型的学生网络作为教师网络;
将第t+1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学
生网络中进行新一轮的基于持续学习的事件抽取模型训练, 得到更新后的基于持续学习的
事件抽取模型。
6.一种基于持续学习的事 件抽取方法, 包括:权 利 要 求 书 1/3 页
2
CN 115544210 A
2获取待抽取文本流数据, 其中, 所述待抽取文本流数据为需要判识的新增文本数据;
将所述待抽取文本流数据输入至预训练语言模型和自注意机制中, 得到与 所述待抽取
文本流数据中待抽取文本相对应的第二融合特 征向量;
将所述第二融合特征向量输入至基于持续学习的事件抽取模型中, 得到事件抽取结
果, 其中, 所述基于持续学习的事件抽取模型由权利要求 1‑5中任一项 所述的基于持续学习
的事件抽取的模型训练方法训练得到;
将所述事 件抽取结果输入至序列分类模型中, 得到事 件抽取类别;
其中, 所述将所述待抽取文本流数据输入至预训练语言模型和自注意机制中, 得到与
所述待抽取文本流数据中待抽取文本相对应的第二融合特 征向量包括:
将所述待抽取文本流数据输入至预训练语言模型中, 得到待抽取文本流特征向量, 所
述待抽取文本流特 征向量包括 不同子句分别对应的第二特 征子向量;
针对所述待抽取文本流特征向量, 利用自注意机制对所述待抽取文本流特征向量中的
第二特征子向量进行融合, 得到与所述待抽取文本流数据中待抽取文本对应的第二融合特
征向量。
7.根据权利要求6所述的方法, 其中, 所述待抽取文本流数据是通过如下 方式得到:
获取待抽取文本流数据;
对所述获取的待抽取文本流数据进行清洗, 得到无 标签待抽取文本数据;
对所述无 标签待抽取文本数据流进行 标注, 得到有标签待抽取文本流数据,
将所述有标注待抽取文本流数据和无标签的待抽取文本流数据融合, 得到待抽取文本
流数据。
8.一种基于持续学习的事 件抽取的模型训练装置, 包括:
第一获取模块, 用于获取文本流数据集, 所述文本流数据集包括第0~第t ‑1个模型已
经记忆的历史文本流数据和第t ~第n个需要判识的新增文本流数据, 其中, t≥1, n≥t;
第一处理模块, 用于将所述文本流数据集输入至预训练 的语言模型和自注意力 机制中
进行处理, 得到与所述文本流数据集中文本对应的第一融合特 征向量;
模型训练模块, 用于采用 知识蒸馏的方式, 利用所述第一融合特征向量训练待训练的
基于持续学习的事件抽取模型的学生网络和教师网络, 得到基于持续学习的事件抽取模型
包括:
将第t个所述第一融合特征向量输入至所述待训练 的基于持续学习的事件抽取模型的
学生网络中, 得到第t个第一特 征向量;
通过历史增强特征转移网络, 将所述第t个第一特征向量映射至第t ‑1个所述第一特征
向量, 得到第t ‑1个第二特 征向量;
将前t‑1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教
师网络中, 得到前t ‑1个第三特 征向量;
根据所述第t个第一特 征向量和有标签文本流数据, 得到第一损失值;
根据所述第t ‑1个第二特 征向量和前t ‑1个第三特 征向量, 得到第二损失值;
将所述第一损失值和第二损失值加 和, 得到总损失值;
利用所述总损失值来训练所述待训练的基于持续学习的事件抽取模型的学生网络和
教师网络, 得到基于持续学习的事 件抽取模型。权 利 要 求 书 2/3 页
3
CN 115544210 A
3
专利 基于持续学习的事件抽取的模型训练、事件抽取的方法
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:20上传分享