专利事件抽取方法、装置、电子设备及可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111666534.4 (22)申请日 2021.12.31 (71)申请人北京小米移动软件有限公司地址 100085 北京市海淀区西二旗中路33 号院6号楼8层018号申请人北京小米松果电子有限公司 (72)发明人代文　花新宇　陈帅　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 代理人贺晓蕾 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/211(2020.01) G06K 9/62(2022.01) (54)发明名称事件抽取方法、装置、电子设备及可读存储介质 (57)摘要本公开涉及一种事件抽取方法、装置、电子设备及可读存储介质，该方法包括：通过训练样本训练得到事件类型 ‑事件触发词联合模型，通过事件类型 ‑事件触发词联合模型识别验证样本得到预测事件类型集合和预测事件触发词集合，预测事件类型集合和预测事件触发词集合作为额外特征融入到事件论元识别当中，多个基于事件类型的事件论元抽取模型和多个基于事件触发词的事件论元抽取模型分别对验证样本中的句子文本进行事件抽取，得到每个句子文本的多个第一事件抽取结果，从得到的多个第一事件抽取结果确定所述句子文本的事件抽取结果，提高了事件抽取的准确率、效率的同时降低了人/物力成本，避免了过于依赖领域经验。权利要求书5页说明书22页附图10页 CN 114328838 A 2022.04.12 CN 114328838 A 1.一种事件抽取方法，其特征在于，包括：获取样本数据；所述样本数据包括多个句子文本，所述多个句子文本的事件类型和事件触发词，所述多个句子文本的事件类型组成标准事件类型集合，所述多个句子文本的事件触发词组成标准事件触发词集合，所述样本数据分为训练样本和验证样本；通过所述训练样本训练事件类型 ‑事件触发词联合模型；所述事件类型 ‑事件触发词联合模型用于识别句子文本中的事件类型和事件触发词；利用所述事件类型 ‑事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合；通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型，以及通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型；对于所述验证样本中的每一个句子文本，通过所述预定数量个基于事件类型的事件论元抽取模型以及所述预测事件类型集合对所述句子文本进行事件抽取，得到所述预定数量个第一事件抽取结果，以及通过所述预定数量个基于事件触发词的事件论元抽取模型以及所述预测事件触发词集合对所述句子文本进行事件抽取，得到所述预定数量个第一事件抽取结果；根据得到的多个所述第一事件抽取结果确定所述句子文本的事件抽取结果。 2.根据权利要求1所述方法，其特征在于，所述样本数据中还包括所述多个句子文本的标注，所述通过所述训练样本训练事件类型‑事件触发词联合模型的步骤包括：对于所述训练样本中的每一个句子文本：对所述句子文本进行预处理，得到所述句子文本的特征表示向量；将所述句子文本的特征表示向量输入至所述事件类型 ‑事件触发词联合模型的输出层，得到所述输出层输出的所述句子文本属于各个事件类型的概率；将所述句子文本的特征表示向量输入至条件随机场CRF层，得到所述CRF层输出的所述句子文本的标注之间的转移概率及似然概率；根据所述句子文本属于各个事件类型的概率、所述句子文本的标注、所述句子文本的标注之间的转移概率及似然概率得到所述事件类型‑事件触发词联合模型的损失函数；根据所述损失函数训练所述事件类型‑事件触发词联合模型。 3.根据权利要求1所述方法，其特征在于，所述对所述句子文本进行预处理，得到所述句子文本的特征表示向量的步骤包括：在所述句子文本的句首添加起始字符，在所述句子文本的句末添加结束字符，得到添加字符后的句子文本；将所述添加字符后的句子文本输入至所述事件类型 ‑事件触发词联合模型，以通过所述事件类型 ‑事件触发词联合模型对所述句子文本中每个字符进行语义学习，得到所述句子文本的表示向量；对所述表示向量进行最大池化处理得到所述句子文本的所述特征表示向量。 4.根据权利要求2所述方法，其特征在于，所述损失函数的计算公式包括： L＝ λLtype+(1‑λ )Ltrigger 其中， λ为比例系数； Ltype为事件类型识别的损失函数，权　利　要　求　书 1/5 页 2 CN 114328838 A 2{1<＝i<＝T}， T为所述训练样本中事件类型的种类的数量， yi为所述句子文本的事件类型i的标注结果， pi为所述句子文本属于事件类型i的概率； Ltrigger为事件触发词识别的损失函数，为所述句子文本的标注序列，为所述句子文本中第n个字符的标注，为的可信度分数，为所述句子文本中第j个字符对应的标注为的似然概率，为所述句子文本中从到的转移概率矩阵。 5.根据权利要求1所述方法，其特征在于，所述利用所述事件类型 ‑事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合的步骤包括：对于所述验证样本中的每一个句子文本：利用所述事件类型 ‑事件触发词联合模型识别所述句子文本属于各个事件类型的概率；筛选出大于第一阈值的所述概率所对应的事件类型，作为所述句子文本的预测事件类型；利用所述事件类型 ‑事件触发词联合模型得到所述句子文本的事件触发词的标注序列的可信度分数；筛选出所述可信度分数最大的标注序列所对应的事件触发词，作为所述句子文本的预测事件触发词；集合所述验证样本中的每一个句子文本的预测事件类型得到所述预测事件类型集合，集合所述验证样本中的每一个句子文本的预测事件触发词得到所述预测事件触发词集合。 6.根据权利要求1所述方法，其特征在于，所述方法还包括：将所述样本数据均分为预定数量份；选择所述预定数量份中任意一份作为所述验证样本，剩下的样本数据作为所述训练样本。 7.根据权利要求6所述方法，其特征在于，所述通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型的步骤包括：扩展所述训练样本中句子文本的事件角色和事件论元的位置标注，得到扩展后的第一位置标注，以及扩展位置标注后的第一句子文本；所述第一位置标注包括：事件类型、事件角色和所述位置标注；对于所述训练样本中的每一个所述第一句子文本：获取所述第一句子文本的标准事件类型；将所述标准事件类型与对应的所述第一句子文本形成的句对作为输入数据，利用所述基于事件类型的论元抽取模型的损失函数训练所述基于事件类型的论元抽取模型，得到所述预定数量个基于事件类型的论元抽取模型。权　利　要　求　书 2/5 页 3 CN 114328838 A 3

专利 事件抽取方法、装置、电子设备及可读存储介质

专利事件抽取方法、装置、电子设备及可读存储介质