全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210428560.1 (22)申请日 2022.04.22 (71)申请人 南京大学 地址 210000 江苏省南京市栖霞区仙林大 道163号 (72)发明人 黄书剑 李志成 鲍宇 张建兵  戴新宇 陈家骏  (74)专利代理 机构 苏州汇诚汇智专利代理事务 所(普通合伙) 32623 专利代理师 莫英妍 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/28(2019.01) (54)发明名称 一种命名实体识别模型的训练方法 (57)摘要 本发明公开了一种命名实体识别模型的训 练方法, 利用预训练好的成分句法分析器, 构建 出输入文本的成分分析树; 基于生成规则, 通过 所述成分分析树形成关键句法成分候选集合; 通 过掩蔽不同的关键句法成分, 筛选出所述关键句 法成分候选集合中最重要的两个关键句法成分; 分别掩蔽实体和最重要的两个关键句法成分, 得 到两种词嵌入并引入一种门控机制对两种词嵌 入进行融合, 形成每个词最终的词嵌入表示; 将 文本中所述每个词最终的词嵌入表 示作为输入, 输入条件随机场中进行训练, 得到命名实体识别 模型。 本发明加强了最终词嵌入的表达能力; 省 去标注样本数据所需的人力成本; 有效减轻整个 句子复杂语义的影 响, 简化人类阅读和理解的过 程, 可解释性较强。 权利要求书3页 说明书8页 附图5页 CN 114881031 A 2022.08.09 CN 114881031 A 1.一种命名实体识别模型的训练方法, 其特 征在于, 包括以下步骤: 步骤101: 利用预训练好的成分句法分析器, 构建出输入文本的成分 分析树; 步骤102: 基于生成规则, 通过 所述成分 分析树形成关键句法成分候选集 合; 步骤103: 通过掩蔽不同的关键句法成分, 筛选出所述关键句法成分候选集合中最重要 的两个关键句法成分; 步骤104: 分别 掩蔽实体和最重要的两个关键句法成分, 得到两种词嵌入并引入一种门 控机制对两种词嵌入进行融合, 形成每 个词最终的词嵌入表示; 步骤105: 将文本 中所述每个词最终的词嵌入表示作为输入, 输入条件随机场中进行训 练, 得到命名实体识别模型。 2.根据权利要求1所述的一种命名实体识别模型的训练方法, 其特征在于, 步骤102中 所述“基于生成规则, 通过 所述成分 分析树形成关键句法成分候选集 合”具体如下: 采用自顶向下, 自左到右 的顺序, 将成分分析树中最靠近 叶子节点的短语节点作为候 选关键句法成分, 加入到关键句法成分候选集 合中。 3.根据权利要求2所述的一种 命名实体识别模型的训练方法, 其特征在于, 对于所述短 语节点被判定为介词短语和 动词短语的节点, 如果所述介词短语和 动词短语的子节点中包 含被判定为名词短语的节点, 则需要将动词或介词与名词短语分开, 将动词和介词单独作 为一个短语, 加入到关键句法成分候选集 合中。 4.根据权利要求1或2所述的一种命名实体识别模型的训练方法, 其特征在于, 实体本 身不作为候选的关键句法成分, 如果某一短语中包含实体, 则需要去除实体, 由此形成的除 实体以外的短语, 作为 新的候选加入到关键句法成分候选集 合中。 5.根据权利要求1所述的一种命名实体识别模型的训练方法, 其特征在于, 步骤103中 所述“通过掩蔽不同的关键句法成分, 筛选出所述关键句法成分候选集合中最重要的两个 关键句法成分 ”具体包括如下步骤: 步骤201: 使用编码器模块和分类 器模块, 对初始的训练数据进行 学习; 步骤202: 利用步骤201训练得到的所述编码器模块和所述分类器模块, 计算实体被正 确识别的概 率S1; 步骤203: 对所述关键句法成分候选集合中候选的关键句法成分进行掩蔽, 计算该候选 的关键句法成分被掩蔽之后实体 被正确识别的概 率S2; 步骤204: 计算每个候选的关键句法成分在掩蔽前后实体被正确识别的概率之差, 并选 取出最重要的两个关键句法成分。 6.根据权利要求5所述的一种命名实体识别模型的训练方法, 其特征在于, 步骤202中 所述“利用步骤201训练得到的所述编码 器模块和所述分类器模块, 计算 实体被正确识别的 概率S1”具体如下: 利用所述编码器模块获取文本中每个词的词嵌入, 使用所述分类器模块 将词嵌入表示映射到实体类别表示空间, 对组成实体的每个词对应的正确类别的预测概率 进行加和求平均, 作为该实体 被正确识别的概 率S1。 7.根据权利要求5所述的一种命名实体识别模型的训练方法, 其特征在于, 步骤203中 所述“对所述关键句法成分候选集合中候选的关键句法成分进行掩蔽, 计算该候选的关键 句法成分被掩蔽之后实体被正确识别的概率S2”具体如下: 针对每一句训练文本所生成的 关键句法成分候选集合, 分别在文本中对其进行掩蔽, 即将文本中的每个候选的关键句法权 利 要 求 书 1/3 页 2 CN 114881031 A 2成分的每个词语替换为[mask], 形成每个候选的关键句法成分各自对应的新文本数据; 对 每条掩蔽原句中一个候选的关键句法成分的新文本数据, 使用与步骤202相同的所述编码 器模块和所述分类器模块, 对新文本数据进行命名实体识别, 对组成实体的每个词对应的 正确类别的预测概 率进行加 和求平均, 作为掩蔽之后该实体 被正确识别及分类的概 率S2。 8.根据权利要求5所述的一种命名实体识别模型的训练方法, 其特征在于, 步骤204中 所述“计算每个候选的关键句法成分在掩蔽前后实体被正确识别的概率之差, 并选取出最 重要的两个关键句法成分 ”具体如下:每个候选的句法成分在掩蔽前后的识别概率之差即 为S1‑S2, 所述识别概率之差定义为该候选句法成分对该句进行命名实体识别的重要性分 数; 对关键句法成分候选集合内的每一个元素, 计算其对该句进行命名实体识别的重要性 得分, 并对得到的所有重要性得分进行排序, 选取出其中重要性得分最高的两个候选的关 键句法成分, 作为 最终的两个关键句法成分。 9.根据权利要求1所述的一种命名实体识别模型的训练方法, 其特征在于, 步骤104中 所述“分别掩蔽实体和最重要的两个关键句法成分, 得到两种词嵌入并引入一种门控机制 对两种词嵌入进行融合, 形成每 个词最终的词嵌入表示 ”具体包括如下步骤: 步骤301: 对文本数据中的实体进行掩蔽, 即将文本中组成实体的词替换为[mask], 并 通过步骤202中所述的编码器模块获取文本中的每 个词的词嵌入表示h1; 步骤302: 对文本数据中的两个关键句法成分进行掩蔽, 即将文本 中组成这两个关键句 法成分的词替换为[mask], 并通过步骤202 中所述的编码器模块获取文本中的每个词的词 嵌入表示h2; 步骤303: 通过引入一种门控机制对h1和h2进行融合, 得到文本数据中每个词的最终词 嵌入表示h, 所述 门控机制的计算公式为: g=σ(W1·h1+W2·h2+b), 其 中σ 表示sigmoid函数, W1和W2表示可训练参数矩阵, b 表示偏置项; 表示逐项相乘操作, 1表 示元素全部为1的高维向量, 其维度与h1和h2相同。 10.根据权利要求1所述的一种命名实体识别模型的训练方法, 其特征在于, 步骤105 中 “将文本中每个词的词嵌入表 示作为输入, 输入条件随机场中进 行训练, 得到命名实体识别 模型”。 具体包括如下步骤: 步骤401: 输入文本中每个词语的词嵌入表示, 条件随机场进行前向计算, 得到文本中 每个词语被预测为各个实体 类别的分数; 步骤402: 计算正确标注路径的分数以及所有可能标注路径的分数, 基于最大似然估计 定义模型的预测损失函数, 所述预测损失函数公式为: 其 中, Preal为正确的标注序列, Pi为所有可能的标注序列, M 为文本的字词数量, n为预先定义的 实体类别数量; 步骤403: 计算损失函数的梯度并反向传播, 更新步骤202中所述的编码器模块和条件 随机场中的参数, 对 模型进行训练; 步骤404: 使用验证集评估模型的性能, 评估 的依据是计算验证集上的F1得分, 计算公权 利 要 求 书 2/3 页 3 CN 114881031 A 3

.PDF文档 专利 一种命名实体识别模型的训练方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种命名实体识别模型的训练方法 第 1 页 专利 一种命名实体识别模型的训练方法 第 2 页 专利 一种命名实体识别模型的训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。