专利一种结合最短依赖路径和XLNet模型的实体关系抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210334845.9 (22)申请日 2022.03.31 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号申请人陕西方寸积慧智能科技有限公司 (72)发明人夏玉童　姬红兵　张文博　苗蕾　柯欣飞　 (74)专利代理机构西安智大知识产权代理事务所 61215 专利代理师段俊涛 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01)G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种结合最短依赖路径和XLNet模型的实体关系抽取方法 (57)摘要本发明公开了一种结合最短依赖路径和 XLNet模型的实体关系抽取方法，包括结合最短依赖路径和XLNet模型的实体关系抽取算法的训练过程，本算法通过引入最短依赖路径信息，对实体对之间的关系进行了补充，去除了无关词的干扰，以提高模型的表示能力；新型的损失函数被用于训练实体关系抽取模型，可以有效地区分难易样本的损失贡献，解决了样本分布不均衡问题，进而提高了模型的性能。本发明通过引入最短依赖路径、新型的损失函数，能够有效提升实体关系抽取的性能。权利要求书3页说明书9页附图1页 CN 114840637 A 2022.08.02 CN 114840637 A 1.一种结合最短依赖路径和XLNet模型的实体关系抽取方法，其特征在于，包括如下步骤：步骤一，语义增强：根据样本中的实体标志符计算实体对的最短依赖路径，对最短依赖路径进行处理获得SDP短语，将待抽取文本与其SDP短语拼接为句子对，在句子对中添加特殊符号“<cls>”以及“<sep>”，并通过分词得到to ken序列；步骤二，文本编码：将步骤一中获得的token序列输入XLNet模型进行文本动态编码，输出包含上下文信息的隐层向量，将所述隐层向量输入下游任务网络；步骤三，信息交互：将实体对和最短依赖路径对应token的隐层向量分别输入全连接层进行信息交互，获得实体对和最短依赖路径的特征向量；步骤四，关系抽取：将特征向量进行特征维度的拼接得到关系分类向量，输入全连接层和softmax层得到最终的预测分布，使用损失函数计算预测损失；步骤五，重复执行步骤一到步骤四，迭代训练直至收敛，训练过程采用小批量梯度下降算法对实体关系抽取模型的参数进行优化，所述实体关系抽取模型由所述XLNet模型和所述下游任务网络组成；步骤六，测试阶段：将待抽取的文本输入实体关系抽取模型，获得待抽取文本中实体对的关系分类预测分布。 2.根据权利要求1所述结合最短依赖路径和XLNet模型的实体关系抽取方法，其特征在于，所述步骤一，实体对的最短依赖路径计算方法如下：使用工业级NLP处理工具spaCy对文本进行依存句法分析处理，将 “en_core_web_sm ‑ 3.1.0”模型导入spaCy计算实体对的最短依赖路径。 3.根据权利要求1所述结合最短依赖路径和XLNet模型的实体关系抽取方法，其特征在于，所述步骤一，对于实体1和实体2构成的实体对，在计算出实体对的最短依赖路径后，先对最短依赖路径进行如下处理得到SDP短语： (1)在最短依赖路径前后分别加上实体1和实体2； (2)在实体1后插入“$”，在实体2之前插入“#”；然后，将待抽取文本与其SDP短语拼接为句子对，在句子对中添加特殊符号 “<cls>”以及“<sep>”，分词过后得到token序列， token序列的长度固定，超出该长度将进行截断，小于该长度则进行填充。 4.根据权利要求1所述结合最短依赖路径和XLNet模型的实体关系抽取方法，其特征在于，所述步骤二， XLNet模型在处理输入前，在待抽取文本尾部增加 “<sep>”和“<cls>”两个特殊符号， “<cls>”符号在经过XLNet模型编码后输出的向量对应整个句子的语义特征，在后面接一个 softmax全连接层即可完成关系抽取任务；如果输入是一个句子对，则增加一个额外的“<sep>”符号用来区分前后两个句子，插入到第二个句子的头部。 5.根据权利要求4所述结合最短依赖路径和XLNet模型的实体关系抽取方法，其特征在于，所述步骤三，将XLNet模型最后四层的输出按照隐层维度进行拼接，作为输入全连接层的隐层向量序列H＝[H1,H2,…,Hseq]，其中seq代表token序列的长度，通过token的下标找到token对应的隐层向量， hidden代表隐层向量的维度，通过如下公式计算表示整个输入序列语义的特征向量hcls：权　利　要　求　书 1/3 页 2 CN 114840637 A 2hcls＝Wcls(tanh(Hz))+bcls 其中 Wcls和bcls分别是全连接层的权重和偏置， Hz是最后一个token位置的隐层向量； Hm， Hn， Hp， Hq分别是四个实体标记“<e1>”，“</e1>”，“<e2>”，“</e1>”对应token的隐层向量，“<e1>”与“</e1>”分别出现在实体1的开始与结束位置，“<e2>”与“</e2>”分别出现在实体2的开始与结束位置， m和n分别表示 “<e1>”和“</e1>”在token序列中的下标位置， p和q分别表示“<e2>”和“</e2>”在token序列中的下标位置，实体1和实体2的特征向量he1和he2的计算方法分别如下式：其中he1， Wentity和bentity分别是相应全连接层的权重和偏置，两实体共享全连接层的参数， t为隐层向量的下标变量， he1公式中， Ht表示隐层向量的范围从Hm到Hn， he2公式中， Ht表示隐层向量的范围从Hp到Hq； Hi， Hj分别是输入中前后两个特殊标记 “<sep>”对应token的隐层向量，则最短依赖路径的特征向量hS的计算方法如式：其中 WS和bS分别是相应全连接层的权重和偏置， hS公式中， Ht表示隐层向量的范围从Hi+1到Hj‑1。 6.根据权利要求5所述结合最短依赖路径和XLNet模型的实体关系抽取方法，其特征在于，所述步骤四，在得到了he1， he2， hS和hcls之后，将其按顺序拼接到一起，最终得到了实体对的关系分类向量R，用来进行关系抽取，将R输入到一个softmax全连接层，以获取所有预定义关系类别的概率分布： P(y|x, θ )＝softmax(WrR+br) 其中y∈Y， y是目标关系类型， Y是所有预定义的关系类型集合， x为输入样本， θ表示整个模型中包括Wr和br在内的所有可以学习的参数， |Y|是关系类型的数量。 7.根据权利要求1或6所述结合最短依赖路径和XLNet模型的实体关系抽取方法，其特征在于，损失函数定义如下：权　利　要　求　书 2/3 页 3 CN 114840637 A 3

专利 一种结合最短依赖路径和XLNet模型的实体关系抽取方法

专利一种结合最短依赖路径和XLNet模型的实体关系抽取方法