专利 基于持续学习的事件抽取的模型训练、事件抽取的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211298886.3 (22)申请日 2022.10.21 (71)申请人中国科学院空天信息创新研究院地址 100190 北京市海淀区北四环西路19 号 (72)发明人孙显　金力　张泽群　李晓宇　马豪伟　魏楷文　耿雪冬　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师郭梦雅 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于持续学习的事件抽取的模型训练、事件抽取的方法 (57)摘要本公开提供了一种基于持续学习的事件抽取的模型训练、事件抽取的方法、装置及设备，属于自然语言处理技术领域，其中，该方法包括：获取文本流数据集；将文本流数据集输入至预训练的语言模型和自注意力机制中进行处理，得到与文本流数据集中文本对应的第一融合特征向量；采用知识蒸馏的方式，利用第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络，得到基于持续学习的事件抽取模型，通过知识蒸馏框架实现知识迁移学习，利用历史增强特征转移网络使事件抽取模型能够在学习新事件知识的同时不会遗忘已经学习过的历史事件知识，在对新增事件类型检测的同时仍可以对历史事件类型进行检测，实现持续性事件学习和检测。权利要求书3页说明书19页附图7页 CN 115544210 A 2022.12.30 CN 115544210 A 1.一种基于持续学习的事件抽取的模型训练方法，包括：获取文本流数据集，所述文本流数据集包括第0～第t ‑1个模型已经记忆的历史文本流数据和第t ～第n个需要判识的新增文本流数据，其中， t≥1， n≥t；将所述文本流数据集输入至预训练的语言模型和自注意力机制中进行处理，得到与所述文本流数据集中文本对应的第一融合特征向量；采用知识蒸馏的方式，利用所述第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络，得到基于持续学习的事件抽取模型，包括：将第t个所述第一融合特征向量输入至所述待训练的基于持续学习的事件抽取模型的学生网络中，得到第t个第一特征向量；通过历史增强特征转移网络，将所述第t个第一特征向量映射至第t ‑1个所述第一特征向量，得到第t ‑1个第二特征向量；将前t‑1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中，得到前t ‑1个第三特征向量；根据所述第t个第一特征向量和有标签文本流数据，得到第一损失值；根据所述第t ‑1个第二特征向量和前t ‑1个第三特征向量，得到第二损失值；将所述第一损失值和第二损失值加和，得到总损失值；利用所述总损失值来训练所述待训练的基于持续学习的事件抽取模型的学生网络和教师网络，得到基于持续学习的事件抽取模型。 2.根据权利要求1所述的方法，其中，获取所述文本流数据集，包括：获取文本流数据；对所述获取文本流数据进行清洗，得到无标签文本流数据；对所述无标签文本流数据进行标注，得到有标签文本流数据；将所述有标签文本流数据和无标签文本流数据进行融合，得到文本流数据集。 3.根据权利要求1所述的方法，其中，所述将所述文本流数据集输入至预训练的语言模型和自注意力机制中，得到与所述文本流数据集中文本对应的第一融合特征向量包括：将所述文本流数据集中的每个文本流数据输入基于预训练的语言模型中，输出与所述文本流数据对应的文本流特征向量，得到n个所述文本流特征向量，每个所述文本流特征向量中包括不同子句分别对应的第一特征子向量；针对每个所述文本流特征向量，利用自注意力机制对所述文本流特征向量中的第一特征子向量进行融合，得到与所述文本流数据集中文本对应的第一融合特征向量。 4.根据权利要求1所述的方法，其中，所述历史增强特征转移网络由全连接层神经网络和非线性激活层组成。 5.根据权利要求1所述的方法，还包括：对训练完成的基于持续学习的事件抽取模型进行更新，所述更新包括：将训练完成的基于持续学习的事件抽取模型的学生网络作为教师网络；将第t+1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中进行新一轮的基于持续学习的事件抽取模型训练，得到更新后的基于持续学习的事件抽取模型。 6.一种基于持续学习的事件抽取方法，包括：权　利　要　求　书 1/3 页 2 CN 115544210 A 2获取待抽取文本流数据，其中，所述待抽取文本流数据为需要判识的新增文本数据；将所述待抽取文本流数据输入至预训练语言模型和自注意机制中，得到与所述待抽取文本流数据中待抽取文本相对应的第二融合特征向量；将所述第二融合特征向量输入至基于持续学习的事件抽取模型中，得到事件抽取结果，其中，所述基于持续学习的事件抽取模型由权利要求 1‑5中任一项所述的基于持续学习的事件抽取的模型训练方法训练得到；将所述事件抽取结果输入至序列分类模型中，得到事件抽取类别；其中，所述将所述待抽取文本流数据输入至预训练语言模型和自注意机制中，得到与所述待抽取文本流数据中待抽取文本相对应的第二融合特征向量包括：将所述待抽取文本流数据输入至预训练语言模型中，得到待抽取文本流特征向量，所述待抽取文本流特征向量包括不同子句分别对应的第二特征子向量；针对所述待抽取文本流特征向量，利用自注意机制对所述待抽取文本流特征向量中的第二特征子向量进行融合，得到与所述待抽取文本流数据中待抽取文本对应的第二融合特征向量。 7.根据权利要求6所述的方法，其中，所述待抽取文本流数据是通过如下方式得到：获取待抽取文本流数据；对所述获取的待抽取文本流数据进行清洗，得到无标签待抽取文本数据；对所述无标签待抽取文本数据流进行标注，得到有标签待抽取文本流数据，将所述有标注待抽取文本流数据和无标签的待抽取文本流数据融合，得到待抽取文本流数据。 8.一种基于持续学习的事件抽取的模型训练装置，包括：第一获取模块，用于获取文本流数据集，所述文本流数据集包括第0～第t ‑1个模型已经记忆的历史文本流数据和第t ～第n个需要判识的新增文本流数据，其中， t≥1， n≥t；第一处理模块，用于将所述文本流数据集输入至预训练的语言模型和自注意力机制中进行处理，得到与所述文本流数据集中文本对应的第一融合特征向量；模型训练模块，用于采用知识蒸馏的方式，利用所述第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络，得到基于持续学习的事件抽取模型包括：将第t个所述第一融合特征向量输入至所述待训练的基于持续学习的事件抽取模型的学生网络中，得到第t个第一特征向量；通过历史增强特征转移网络，将所述第t个第一特征向量映射至第t ‑1个所述第一特征向量，得到第t ‑1个第二特征向量；将前t‑1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中，得到前t ‑1个第三特征向量；根据所述第t个第一特征向量和有标签文本流数据，得到第一损失值；根据所述第t ‑1个第二特征向量和前t ‑1个第三特征向量，得到第二损失值；将所述第一损失值和第二损失值加和，得到总损失值；利用所述总损失值来训练所述待训练的基于持续学习的事件抽取模型的学生网络和教师网络，得到基于持续学习的事件抽取模型。权　利　要　求　书 2/3 页 3 CN 115544210 A 3

专利 基于持续学习的事件抽取的模型训练、事件抽取的方法

专利基于持续学习的事件抽取的模型训练、事件抽取的方法