专利关系抽取方法、装置、设备、存储介质及计算机程序产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210279697.5 (22)申请日 2022.03.21 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人杨韬　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师彭程 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称关系抽取方法、装置、设备、存储介质及计算机程序产品 (57)摘要本申请公开一种关系抽取方法、装置、设备、存储介质及计算机程序产品，该方法包括：在预测待处理文本对应的实体关系序列中的第i个预测字符时，确定生成第i个预测字符所需的表征信息；基于生成第i个预测字符所需的表征信息，确定预设词表中各个参考字符作为第i个预测字符的生成概率；各个待处理字符属于预设词表；基于生成第i个预测字符所需的表征信息与待处理文本中各个待处理字符的表征信息之间的相似度，确定各个待处理字符作为第i个预测字符的指针概率；根据各个参考字符作为第i个预测字符的生成概率以及各个待处理字符作为第i个预测字符的指针概率，从预设词表中确定出第i 个预测字符，并将其添加至待处理文本对应的实体关系序列中。权利要求书4页说明书24页附图6页 CN 114625888 A 2022.06.14 CN 114625888 A 1.一种关系抽取方法，其特征在于，包括：获取待处理文本中各个待处理字符的表征信息；在预测所述待处理文本对应的实体关系序列中的第 i个预测字符时，确定生成所述第i 个预测字符所需的表征信息； i 为正整数；基于所述生成所述第i个预测字符所需的表征信息，确定预设词表中各个参考字符作为所述第i个预测字符的生成概率；所述待处理文本中的各个待处理字符属于所述预设词表；基于所述生成所述第 i个预测字符所需的表征信息与所述各个待处理字符的表征信息之间的相似度，确定所述各个待处理字符作为所述第i个预测字符的指针概率；根据所述各个参考字符作为所述第 i个预测字符的生成概率以及所述各个待处理字符作为所述第i个预测字符的指针概率，从所述预设词表中确定出所述第i个预测字符，并将所述第i个预测字符添加至所述待处理文本对应的实体关系序列中。 2.如权利要求1所述的方法，其特征在于，所述根据所述各个参考字符作为所述第i个预测字符的生成概率以及所述各个待处理字符作为所述第i个预测字符的指针概率，从所述预设词表中确定出所述第i个预测字符，包括：获取生成概率权重以及指针概率权重；所述生成概率权重是基于所述生成所述第i个预测字符所需的表征信息确定出的，所述生成概率权重与所述指针概率权重相加为1；将所述生成概率权重分别与所述各个参考字符作为所述第 i个预测字符的生成概率进行相乘运算，得到所述各个参考字符对应的加权生成概率，以及将所述指针概率权重分别与所述各个待处理字符作为所述第i个预测字符的指针概率进行相乘运算，得到所述各个待处理字符对应的加权指针概率；将所述各个参考字符对应的加权生成概率与所述各个待处理字符对应的加权指针概率对应相加，得到所述各个参考字符作为所述第i个预测字符的预测概率，并将所述预设词表中，满足预测概率条件的预测概率所指向的参考字符确定为所述第i个预测字符。 3.如权利要求2所述的方法，其特征在于，所述各个参考字符包括所述各个待处理字符以及其他字符；所述各个参考字符对应的加权生成概率包括所述各个待处理字符对应的加权生成概率以及所述其他字符对应的加权生成概率；所述将所述各个参考字符对应的加权生成概率与所述各个待处理字符对应的加权指针概率对应相加，得到所述各个参考字符作为所述第i个预测字符的预测概率，包括：将每个所述待处理字符对应的加权生成概率与所述每个待处理字符对应的加权指针概率对应进行求和处理，得到所述每个待处理字符作为所述第i个预测字符的预测概率；将所述其他字符对应的加权生成概率，确定为所述其他字符作为所述第i个预测字符的预测概率。 4.如权利要求1所述的方法，其特征在于，所述各个待处理字符的表征信息包括所述各个待处理字符的表征向量，所述生成所述第i个预测字符所需的表征信息包括生成所述第i 个预测字符所需的表征向量；所述各个待处理字符的表征向量是调用关系抽取模型中的编码模块，对所述待处理文本进行关系特征编码处理得到的；所述关系抽取模型还包括解码模块，所述生成所述第i个预测字符所需的表征向量是调用所述关系抽取模型中的解码模块，对所述各个待处理字符的表征向量以及解码参考字符进行解码处理得到的，其中，当i权　利　要　求　书 1/4 页 2 CN 114625888 A 2＝1时，所述解码参考字符为特殊解码字符，当i＞1时，所述解码参考字符为第i‑1个预测字符。 5.如权利要求1所述的方法，其特征在于，所述各个待处理字符的表征信息包括所述各个待处理字符的表征向量，所述生成所述第i个预测字符所需的表征信息包括生成所述第i 个预测字符所需的表征向量；所述基于所述生成所述第 i个预测字符所需的表征信息与所述各个待处理字符的表征信息之间的相似度，确定所述各个待处理字符作为所述第i个预测字符的指针概率，包括：将所述各个待处理字符的表征向量与所述生成第 i个预测字符所需的表征向量进行内积处理，得到所述生成第i个预测字符所需的表征向量与所述各个待处理字符的表征向量之间的相似度分布；对所述相似度分布进行归一化处理，得到所述各个待处理字符作为所述第i个预测字符的指针概率。 6.如权利要求4所述的方法，其特征在于，所述关系抽取模型是基于训练样本训练得到的，所述训练样本包括样本文本以及所述样本文本对应的实体关系标签序列；基于所述训练样本对所述关系抽取模型进行训练，包括：调用所述关系抽取模型中的编码模块，对所述样本文本进行关系特征编码处理，得到所述样本文本中各个样本字符的表征向量；调用所述关系抽取模型中的解码模块，对所述各个样本字符的表征向量以及训练时解码参考字符进行解码处理，得到生成第 j个训练时预测字符所需的表征向量；其中， j为正整数，当j＝1时，所述训练时解码参考字符为所述特殊解码字符，当j＞1时，所述训练时解码参考字符为第j ‑1个训练时预测字符；基于所述生成所述第j个训练时预测字符所需的表征向量进行实体关系预测处理，得到所述样本文本对应的实体关系预测序列；将所述实体关系标签序列与所述实体关系预测序列添加至训练参考信息中，并基于所述训练参考信息对所述关系抽取模型进行训练。 7.如权利要求6所述的方法，其特征在于，所述训练参考信息中还包括：所述样本文本对应的实体标签序列以及所述样本文本对应的实体预测序列；所述实体预测序列是调用所述关系抽取模型中的实体预测模块对所述各个样本字符的表征向量进行实体预测处理得到的；所述基于所述训练参考信息对所述关系抽取模型进行训练，包括：基于所述实体关系标签序列与所述实体关系预测序列之间的差异，确定第一损失函数的损失值；基于所述实体标签序列与所述实体预测序列之间的差异，确定第二损失函数的损失值；基于所述第一损失函数的损失值以及所述第二损失函数的损失值，确定目标损失函数的损失值；朝着减小所述目标损失函数的损失值的方向，对所述关系抽取模型中的模型参数进行调整。 8.如权利要求6或7所述的方法，其特征在于，在基于所述训练样本对所述关系抽取模权　利　要　求　书 2/4 页 3 CN 114625888 A 3

专利 关系抽取方法、装置、设备、存储介质及计算机程序产品

专利关系抽取方法、装置、设备、存储介质及计算机程序产品