全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211037769.1 (22)申请日 2022.08.26 (71)申请人 鼎富智能科技有限公司 地址 230000 安徽省合肥市高新区习友路 3333号A1楼19层-B区 (72)发明人 吴相博 李健铨 刘小康  (74)专利代理 机构 北京弘权知识产权代理有限 公司 11363 专利代理师 朱紫晓 孙亚芹 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/903(2019.01) G06K 9/62(2022.01) (54)发明名称 一种命名实体识别模型的训练方法和装置 (57)摘要 本申请提供了一种命名实体识别模型的训 练方法和装置, 能够基于数量较少的训练数据样 本来进行命名实体识别模型的训练。 方法包括: 获取种子模板, 种子模板为用于训练命名实体识 别模型的语料的抽象语义表示, 种子模板包括一 个或多个第一数据填充函数, 第一数据填充函数 用于根据命名实体标签获取组成第一语料的命 名实体标签对应的命名实体, 种子模板用于根据 命名实体确定第一语料, 并确定第一语料的标注 信息, 标注信息包括命名实体的位置和命名实体 对应的命名实体标签, 命名实体标签用于作为命 名实体识别模 型的期望输出来训练模 型; 根据第 一语料和标注信息确定训练数据集; 基于训练数 据集训练命名实体识别模型, 以获取训练好的命 名实体识别模型。 权利要求书2页 说明书13页 附图2页 CN 115310450 A 2022.11.08 CN 115310450 A 1.一种命名实体识别模型的训练方法, 其特 征在于, 包括: 获取种子模板, 所述种子模板为用于训练命名实体识别模型的语料的抽象语义表示, 所述种子模板包括一个或多个第一数据填充函数, 所述第一数据填充函数用于根据命名实 体标签获取组成第一语料的所述命名实体标签对应的命名实体, 所述种子模板用于根据所 述命名实体确定所述第一语料, 并确定所述第一语料 的标注信息, 所述标注信息包括所述 命名实体的位置和所述命名实体对应的命名实体标签, 所述命名实体标签用于作为所述命 名实体识别模型的期望 输出来训练该模型; 根据所述第一语料和所述标注信息确定训练数据集; 基于所述训练数据集训练所述命名实体识别模型, 以获取训练好的命名实体识别模 型。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取词库, 所述词库用于存储不同的命名实体类别名称和每一命名实体类别名称对应 的命名实体。 3.根据权利要求2所述的方法, 其特征在于, 所述词库存储的命名实体类别名称中包括 所述命名实体标签, 所述第一数据填充函数用于根据命名实体标签获取组成第一语料的所 述命名实体标签对应的命名实体, 包括: 所述第一数据填充函数用于关联所述命名实体标签和所述词库, 并获取所述词库中与 所述命名实体标签对应的命名实体。 4.根据权利要求2所述的方法, 其特征在于, 所述种子模板包括一个或多个第 二数据填 充函数, 所述第二数据填充函数包括多个子函数, 所述第二数据填充函数用于从所述多个 子函数中确定一个子函数并运行, 其中, 所述多个子函数包括第一子函数, 所述第一子函数用于获取组成所述第一语料的, 除 所述词库包括的命名实体以外的命名实体, 所述种子模板还用于根据所述第一子函数获取 的命名实体确定所述第一语料, 和/或, 所述多个子函数包括第 二子函数, 所述第 二子函数用于获取组成所述第 一语料的除命 名实体以外的分词, 所述种子模板还用于根据所述分词确定所述第一语料。 5.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 获取种子数据, 所述种子数据为原始语料经过人工标注所述命名实体标签后的数据, 所述种子数据包括所述标注信息; 根据所述种子数据的所述标注信息和所述词库确定第二语料; 根据所述第二语料和所述标注信息确定所述训练数据集。 6.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 获取历史数据集, 所述历史数据集包括已经训练好的命名实体识别模型所使用的数据 集和所述所使用的数据集的元数据, 所述元数据包括所属数据集中的一个或多个命名实体 标签; 根据所述元数据获取所述历史数据集中的同标数据集, 所述同标数据集的命名实体标 签与所述第一语料的所述命名实体标签相同, 所述同标 数据集包括所述标注信息; 根据所述同标 数据集的标注信息和所述词库确定第三语料; 根据所述第三语料和所述标注信息确定所述训练数据集。权 利 要 求 书 1/2 页 2 CN 115310450 A 27.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 获取包括所述标注信息的第四语料; 根据所述第四语料的标注信 息, 确定与 该标注信 息对应的命名实体所匹配的新的所述 第一数据填充函数; 根据新的所述第 一数据填充函数确定新的所述种子模板, 新的所述种子模板用于确定 后续的命名实体识别模型训练的训练数据集。 8.根据权利要求7所述的方法, 其特征在于, 所述根据新的所述第 一数据填充函数确定 新的所述种子模板, 包括: 确定所述第四语料中除命名实体以外的分词; 根据所述第四语料中除命名实体以外的分词基于正则表达式匹配方法确定新的所述 第二数据填充函数; 根据新的所述第一数据填充函数和新的所述第二数据填充函数确定新的所述种子模 板。 9.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 对所述训练好的命名实体识别模型进行模型验证; 根据所述模型验证的结果更新所述种子模板; 根据更新后的所述种子模板确定新的训练数据集; 基于所述新的训练数据集训练所述命名实体识别模型, 以获取新的训练好的命名实体 识别模型。 10.一种命名实体识别模型的训练装置, 其特 征在于, 包括: 种子模板获取模块, 获取种子模板, 所述种子模板为用于训练命名实体识别模型的语 料的抽象语义表示, 所述种子模板包括一个或多个第一数据填充函数, 所述第一数据填充 函数用于根据命名实体标签获取组成第一语料的所述命名实体标签对应的命名实体, 所述 种子模板用于根据所述命名实体确定所述第一语料, 并确定所述第一语料 的标注信息, 所 述标注信息包括所述命名实体的位置和所述命名实体对应的命名实体标签, 所述命名实体 标签用于作为所述命名实体识别模型的期望 输出来训练该模型; 训练数据集确定模块, 用于根据所述第一语料和所述标注信息确定训练数据集; 模型训练模块, 用于基于所述训练数据集训练所述命名实体识别模型, 以获取训练好 的命名实体识别模型。权 利 要 求 书 2/2 页 3 CN 115310450 A 3

PDF文档 专利 一种命名实体识别模型的训练方法和装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种命名实体识别模型的训练方法和装置 第 1 页 专利 一种命名实体识别模型的训练方法和装置 第 2 页 专利 一种命名实体识别模型的训练方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。