专利一种基于深度学习的多特征中文实体关系抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210386284.7 (22)申请日 2022.04.13 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人张文安　张明德　刘强　刘涛　傅金波　金聪　朱琦　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师汤明 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/253(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 16/28(2019.01) (54)发明名称一种基于深度学习的多特征中文实体关系抽取方法 (57)摘要本发明公开了一种基于深度学习的多特征中文实体关系抽取方法，具体涉及自然语言处理技术领域，包括以下步骤：完成多特征中文词嵌入，使用BERT学习字符向量拼接词性标签和字符信息位置信息作为词嵌入向量输入送往多特征循环卷积网络网络，该神经网络包含中文的句子级特征和字符级特征，经过最大池化层，将其作为最终的分类向量送往softmax分类器。对于每个句子，概率最大的值对应的类别就是分类结果。本发明适用于中文文本的关系抽取，能够有效的针对中文语料的复杂关系。权利要求书2页说明书4页附图2页 CN 114757200 A 2022.07.15 CN 114757200 A 1.一种基于深度学习的多特征中文实体关系抽取方法，其特征在于，包括以下步骤：步骤1：多特征中文词嵌入：使用BERT模型学习字符向量，并拼接字符位置向量和词性标签作为词嵌入向量；步骤2：上述向量拼接作为bi‑GRU的输入； bi ‑GRU作为多特征循环卷积网络中提取单词级特征的模块。步骤3：采用Bi ‑LSTM提取上下文的细节，将步骤1结束所得的向量作为Bi ‑LSTM的输入，其输出记作yi(2)，作为多特征循环卷积网络中提取字符级特征的模块；步骤4：步骤2捕获了上下文语义，最后串联左右上下文向量和单词嵌入向量，作为卷积层输出句子级特征。 2.根据权利要求1所述的一种基于深度学习的多特征中文实体关系抽取方法，其特征在于，所述步骤1具体过程如下：步骤1.1：使用BERT的Tokenizer分词器对文本进行切分操作，每个句子以CLS开头，以 SEP为结尾的结构转换为Token序列P＝{CLS,c1,c2,…,cn‑1,SEP}；将Token向量与位置向量，分句向量进行求和输入BERT；步骤1.2：定义输入的句子为系列形式： W＝[w1,w2,…,wl]；经过BERT编码输出最终序列 E＝[e0,e1,…,en,en+1]∈R(n+2)*dT； R代表实数集合， dT为bert的隐藏维度；步骤1.3：中文包含丰富的语义特征，为了解决分词歧义，加入POSTAG标签添加实体的词性；步骤1.4：对于一句中文而言，每一个字对应的位置不同，采用独热方式提取边界特征向量。 3.根据权利要求1所述的一种基于深度学习的多特征中文实体关系抽取方法，其特征在于，所述步骤2具体过程如下：步骤2.1： GRU有一个当前输入xt和上一个节点传递来的隐状ht‑1，结合xt和ht‑1， GRU得到隐藏节点的输出yt和下一个节点的隐藏状态ht，这样就获得两个门控状态， r为重置门， z为更新门； rt＝σ(wr*[ht‑1,xt]) (1) zt＝σ(wz*[ht‑1,xt]) (2) 其中， wr、 wz分别表示权重参数；得到门控信息，使用重置结果rt*ht‑1与xt拼接；是指什么权重参数，是包含了当前输入xt的数据，有选择性的将添加到当前的隐藏状态，也就是保留了当前时刻的状态；更新阶段，同时进行遗忘和记忆过程；最后将结果进行输出或者传递给下一个细胞； yt＝σ(wo*ht) (5) 其中， σ 是一个函数公知的sigmo id、 wo表示权重参数；步骤2.2：将步骤1得到的向量表示为el；权　利　要　求　书 1/2 页 2 CN 114757200 A 2步骤2.3：使用bi ‑GRU来得到每个单词的上下文表示；步骤2.4：定义 wl的左侧内容为cl,右侧为cr；以下为wl的左和右上下文表示： cl(wl)＝f(w(l)cl(wl‑1)+w(sl)e(wl‑1) (6) cr(wl)＝f(w(r)cr(wl+1)+w(sr)e(wl+1) (7) w(l)， w(r)将隐藏层转换为下一个隐藏层的矩阵； w(sl),w(sr)是用于将当前单词的语意与下一个单词的左侧或右侧上下文相结合的矩阵； f是一个非线性激活函数；步骤2.5：上述公式(6)，公式(7)得到的向量做如下公式(8)的处理： wl＝[(cl)T,(el)T,(cr)T]T (8) 步骤2.6：循环结构对文本进行前向和后向扫描， wl作为文本上下文表示后，应用一个激活函数tanh， yi(1)作为CNN层的输出,w(1)作为权重矩阵， b为偏置参数。 yi(1)＝tanh(w(1)wl+b) (9) 其中w(1)表示权重参数， b偏置参数。 4.根据权利要求1所述的一种基于深度学习的多特征中文实体关系抽取方法，其特征在于，所述步骤4具体过程如下：步骤4.1：计算汉字的所有表示时，应用max ‑pooling层，输入循环卷积输出和双向记忆网络的向量: yi(3)＝max(yi(1)+yi(2)) (10) 步骤4.2：最后将softmax函数应用于yi(3)，将输出的数字转换成概率: 。权　利　要　求　书 2/2 页 3 CN 114757200 A 3

专利 一种基于深度学习的多特征中文实体关系抽取方法

专利一种基于深度学习的多特征中文实体关系抽取方法