专利一种命名实体识别模型的训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210428560.1 (22)申请日 2022.04.22 (71)申请人南京大学地址 210000 江苏省南京市栖霞区仙林大道163号 (72)发明人黄书剑　李志成　鲍宇　张建兵　戴新宇　陈家骏　 (74)专利代理机构苏州汇诚汇智专利代理事务所(普通合伙) 32623 专利代理师莫英妍 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/28(2019.01) (54)发明名称一种命名实体识别模型的训练方法 (57)摘要本发明公开了一种命名实体识别模型的训练方法，利用预训练好的成分句法分析器，构建出输入文本的成分分析树；基于生成规则，通过所述成分分析树形成关键句法成分候选集合；通过掩蔽不同的关键句法成分，筛选出所述关键句法成分候选集合中最重要的两个关键句法成分；分别掩蔽实体和最重要的两个关键句法成分，得到两种词嵌入并引入一种门控机制对两种词嵌入进行融合，形成每个词最终的词嵌入表示；将文本中所述每个词最终的词嵌入表示作为输入，输入条件随机场中进行训练，得到命名实体识别模型。本发明加强了最终词嵌入的表达能力；省去标注样本数据所需的人力成本；有效减轻整个句子复杂语义的影响，简化人类阅读和理解的过程，可解释性较强。权利要求书3页说明书8页附图5页 CN 114881031 A 2022.08.09 CN 114881031 A 1.一种命名实体识别模型的训练方法，其特征在于，包括以下步骤：步骤101：利用预训练好的成分句法分析器，构建出输入文本的成分分析树；步骤102：基于生成规则，通过所述成分分析树形成关键句法成分候选集合；步骤103：通过掩蔽不同的关键句法成分，筛选出所述关键句法成分候选集合中最重要的两个关键句法成分；步骤104：分别掩蔽实体和最重要的两个关键句法成分，得到两种词嵌入并引入一种门控机制对两种词嵌入进行融合，形成每个词最终的词嵌入表示；步骤105：将文本中所述每个词最终的词嵌入表示作为输入，输入条件随机场中进行训练，得到命名实体识别模型。 2.根据权利要求1所述的一种命名实体识别模型的训练方法，其特征在于，步骤102中所述“基于生成规则，通过所述成分分析树形成关键句法成分候选集合”具体如下：采用自顶向下，自左到右的顺序，将成分分析树中最靠近叶子节点的短语节点作为候选关键句法成分，加入到关键句法成分候选集合中。 3.根据权利要求2所述的一种命名实体识别模型的训练方法，其特征在于，对于所述短语节点被判定为介词短语和动词短语的节点，如果所述介词短语和动词短语的子节点中包含被判定为名词短语的节点，则需要将动词或介词与名词短语分开，将动词和介词单独作为一个短语，加入到关键句法成分候选集合中。 4.根据权利要求1或2所述的一种命名实体识别模型的训练方法，其特征在于，实体本身不作为候选的关键句法成分，如果某一短语中包含实体，则需要去除实体，由此形成的除实体以外的短语，作为新的候选加入到关键句法成分候选集合中。 5.根据权利要求1所述的一种命名实体识别模型的训练方法，其特征在于，步骤103中所述“通过掩蔽不同的关键句法成分，筛选出所述关键句法成分候选集合中最重要的两个关键句法成分 ”具体包括如下步骤：步骤201：使用编码器模块和分类器模块，对初始的训练数据进行学习；步骤202：利用步骤201训练得到的所述编码器模块和所述分类器模块，计算实体被正确识别的概率S1；步骤203：对所述关键句法成分候选集合中候选的关键句法成分进行掩蔽，计算该候选的关键句法成分被掩蔽之后实体被正确识别的概率S2；步骤204：计算每个候选的关键句法成分在掩蔽前后实体被正确识别的概率之差，并选取出最重要的两个关键句法成分。 6.根据权利要求5所述的一种命名实体识别模型的训练方法，其特征在于，步骤202中所述“利用步骤201训练得到的所述编码器模块和所述分类器模块，计算实体被正确识别的概率S1”具体如下：利用所述编码器模块获取文本中每个词的词嵌入，使用所述分类器模块将词嵌入表示映射到实体类别表示空间，对组成实体的每个词对应的正确类别的预测概率进行加和求平均，作为该实体被正确识别的概率S1。 7.根据权利要求5所述的一种命名实体识别模型的训练方法，其特征在于，步骤203中所述“对所述关键句法成分候选集合中候选的关键句法成分进行掩蔽，计算该候选的关键句法成分被掩蔽之后实体被正确识别的概率S2”具体如下：针对每一句训练文本所生成的关键句法成分候选集合，分别在文本中对其进行掩蔽，即将文本中的每个候选的关键句法权　利　要　求　书 1/3 页 2 CN 114881031 A 2成分的每个词语替换为[mask]，形成每个候选的关键句法成分各自对应的新文本数据；对每条掩蔽原句中一个候选的关键句法成分的新文本数据，使用与步骤202相同的所述编码器模块和所述分类器模块，对新文本数据进行命名实体识别，对组成实体的每个词对应的正确类别的预测概率进行加和求平均，作为掩蔽之后该实体被正确识别及分类的概率S2。 8.根据权利要求5所述的一种命名实体识别模型的训练方法，其特征在于，步骤204中所述“计算每个候选的关键句法成分在掩蔽前后实体被正确识别的概率之差，并选取出最重要的两个关键句法成分 ”具体如下:每个候选的句法成分在掩蔽前后的识别概率之差即为S1‑S2，所述识别概率之差定义为该候选句法成分对该句进行命名实体识别的重要性分数；对关键句法成分候选集合内的每一个元素，计算其对该句进行命名实体识别的重要性得分，并对得到的所有重要性得分进行排序，选取出其中重要性得分最高的两个候选的关键句法成分，作为最终的两个关键句法成分。 9.根据权利要求1所述的一种命名实体识别模型的训练方法，其特征在于，步骤104中所述“分别掩蔽实体和最重要的两个关键句法成分，得到两种词嵌入并引入一种门控机制对两种词嵌入进行融合，形成每个词最终的词嵌入表示 ”具体包括如下步骤：步骤301：对文本数据中的实体进行掩蔽，即将文本中组成实体的词替换为[mask]，并通过步骤202中所述的编码器模块获取文本中的每个词的词嵌入表示h1；步骤302：对文本数据中的两个关键句法成分进行掩蔽，即将文本中组成这两个关键句法成分的词替换为[mask]，并通过步骤202 中所述的编码器模块获取文本中的每个词的词嵌入表示h2；步骤303：通过引入一种门控机制对h1和h2进行融合，得到文本数据中每个词的最终词嵌入表示h，所述门控机制的计算公式为： g＝σ(W1·h1+W2·h2+b)，其中σ 表示sigmoid函数， W1和W2表示可训练参数矩阵， b 表示偏置项；表示逐项相乘操作， 1表示元素全部为1的高维向量，其维度与h1和h2相同。 10.根据权利要求1所述的一种命名实体识别模型的训练方法，其特征在于，步骤105 中 “将文本中每个词的词嵌入表示作为输入，输入条件随机场中进行训练，得到命名实体识别模型”。具体包括如下步骤：步骤401：输入文本中每个词语的词嵌入表示，条件随机场进行前向计算，得到文本中每个词语被预测为各个实体类别的分数；步骤402：计算正确标注路径的分数以及所有可能标注路径的分数，基于最大似然估计定义模型的预测损失函数，所述预测损失函数公式为：其中， Preal为正确的标注序列， Pi为所有可能的标注序列， M 为文本的字词数量， n为预先定义的实体类别数量；步骤403：计算损失函数的梯度并反向传播，更新步骤202中所述的编码器模块和条件随机场中的参数，对模型进行训练；步骤404：使用验证集评估模型的性能，评估的依据是计算验证集上的F1得分，计算公权　利　要　求　书 2/3 页 3 CN 114881031 A 3

专利 一种命名实体识别模型的训练方法

专利一种命名实体识别模型的训练方法