全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210344549.7 (22)申请日 2022.03.31 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道网商路69 9号4号楼5楼5 08室 (72)发明人 蒋勇 王涛 谢朋峻  (74)专利代理 机构 北京太合九思知识产权代理 有限公司 1 1610 专利代理师 柴艳波 刘戈 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/33(2019.01) G06F 16/36(2019.01) (54)发明名称 命名实体识别方法、 模型训练方法、 设备及 存储介质 (57)摘要 本申请实施例提供一种命名实体识别方法、 模型训练方法、 设备及存储介质。 其中, 方法包括 如下的步骤: 获取待识别文本; 将待识别文本输 入至训练过的命名实体识别模型中, 得到待识别 文本的识别结果; 其中, 命名实体识别模型的训 练过程包括: 将第一样本文本、 第二样本文本以 及第三样 本文本输入至命名实体识别模型中, 得 到第一样 本文本、 第二样本文本以及第三样本文 本各自的识别结果; 第二样本文本与第三样本文 本语义相似; 根据第一样本文本的识别结果与其 期望识别结果之间的第一差异以及第二样本文 本的识别结果与第三样本文本的识别结果之间 的第二差异, 对命名实体识别模型进行优化。 本 申请实施例提供的方案模型训练成本低。 权利要求书3页 说明书10页 附图2页 CN 114662494 A 2022.06.24 CN 114662494 A 1.一种命名实体识别方法, 其中, 包括: 获取待识别文本; 将所述待识别文本输入至训练过的命名实体识别模型中, 得到所述待识别文本的识别 结果; 其中, 所述命名实体识别模型的训练过程包括: 将第一样本文本、 第二样本文本以及第三样本文本输入至所述命名实体识别模型中, 得到所述第一样本文本、 所述第二样本文本以及所述第三样本文本各自的识别结果; 所述 第二样本文本与所述第三样本文本语义相似; 根据所述第一样本文本的识别结果与其期望识别结果之间的第一差异以及所述第二 样本文本的识别结果与所述第三样本文本的识别结果之 间的第二差异, 对 所述命名实体识 别模型进行优化。 2.根据权利要求1所述的方法, 其中, 所述第二样本文本的识别结果包括: 所述第二样 本文本对应的多个第一可能标签序列以及所述第二样本文本属于各第一可能标签序列的 概率; 所述第三样本文本的识别结果包括: 所述第三样本文本对应的多个第二可能标签序 列以及所述第三样本文本属于各第二可能标签序列的概 率; 所述方法, 还 包括: 根据所述第 二样本文本的识别结果以及所述第 三样本文本的识别结果, 确定可能标签 序列对; 根据所述可能标签序列对中第 一可能标签序列和第 二可能标签序列, 确定所述可能标 签序列对 对应的一 致性程度; 根据所述可能标签序列对对应的一致性程度, 确定所述第 二样本文本的识别结果与 所 述第三样本文本的识别结果之间的第二差异。 3.根据权利要求2所述的方法, 其中, 所述可能标签序列对为多个; 根据所述可能标签序列对对应的一致性程度, 确定所述第 二样本文本的识别结果与 所 述第三样本文本的识别结果之间的第二差异, 包括: 根据所述第二样本文本属于第一可能标签序列对中第一可能标签序列的概率以及所 述第三样本文本属于所述第一可能标签序列对中第二可能标签序列的概率的乘积, 确定所 述第一可能标签序列对对应的概率; 多个所述可能标签序列对中包括所述第一可能标签序 列对; 根据多个所述可能标签序列对各自对应的概率以及所述多个可能标签序列对各自对 应的一致性程度, 确定所述第二差异。 4.根据权利要求3所述的方法, 其中, 根据多个所述可能标签序列对各自对应的概率以 及所述多个可能标签序列对各自对应的一 致性程度, 确定所述第二差异, 包括: 根据所述多个可能标签序列对各自对应的概率以及所述多个可能标签序列对各自对 应的一致性程度, 确定所述多个可能标签序列对各自对应的一致性程度在所述多个可能标 签序列对 对应的概 率分布下的期望值; 根据所述期望值, 确定所述第二差异; 其中, 所述期望值越大, 所述第二差异越小。 5.根据权利要求2所述的方法, 其中, 根据 所述第二样本文本的识别结果以及所述第 三 样本文本的识别结果, 确定可能标签序列对, 包括: 根据所述第 二样本文本属于各第 一可能标签序列的概率, 从所述多个第 一可能标签序权 利 要 求 书 1/3 页 2 CN 114662494 A 2列中确定出 所述第二样本文本所属的目标第一可能标签序列; 根据所述第 三样本文本属于各第 二可能标签序列的概率, 从所述多个第 二可能标签序 列中确定出 所述第三样本文本所属的目标第二可能标签序列; 将所述目标第一可能标签序列和所述目标第二可能标签序列组成所述可能标签序列 对。 6.根据权利要求2至5中任一项所述的方法, 其中, 根据所述可能标签序列对中第一可 能标签序列和第二可能标签序列, 确定所述可能标签序列对 对应的一 致性程度, 包括: 确定所述第一可能标签序列对中第一可能标签序列对应的第一实体标签集合和第二 可能标签序列对应的第二实体标签集 合; 根据所述第 一实体标签集合与所述第 二实体标签集合的重叠情况, 确定所述第 一可能 标签序列对 对应的一 致性程度。 7.根据权利要求1至5中任一项所述的方法, 其中, 根据所述第一样本文本的识别结果 与其期望识别结果之间的第一差异以及所述第二样本文本的识别结果与所述第三样本文 本的识别结果之间的第二差异, 对所述命名实体识别模型进行优化, 包括: 获取所述第二样本文本与所述第二样本文本之间的相似程度; 根据所述相似程度以及所述第二差异, 确定更新后第二差异; 根据所述第一差异以及所述更新后第二差异, 对所述命名实体识别模型进行优化。 8.一种模型训练方法, 其中, 包括: 将第一样本文本、 第二样本文本以及第三样本文本输入至命名实体识别模型中, 得到 所述第一样本文本、 所述第二样本文本以及所述第三样本文本各自的识别结果; 所述第二 样本文本与所述第三样本文本语义相似; 根据所述第一样本文本的识别结果与其期望识别结果之间的第一差异以及所述第二 样本文本的识别结果与所述第三样本文本的识别结果之 间的第二差异, 对 所述命名实体识 别模型进行优化。 9.根据权利要求8所述的方法, 其中, 所述第二样本文本的识别结果包括: 所述第二样 本文本对应的多个第一可能标签序列以及所述第二样本文本属于各第一可能标签序列的 概率; 所述第三样本文本的识别结果包括: 所述第三样本文本对应的多个第二可能标签序 列以及所述第三样本文本属于各第二可能标签序列的概 率; 所述方法, 还 包括: 根据所述第 二样本文本的识别结果以及所述第 三样本文本的识别结果, 确定可能标签 序列对; 根据所述可能标签序列对中第 一可能标签序列和第 二可能标签序列, 确定所述可能标 签序列对 对应的一 致性程度; 根据所述可能标签序列对对应的一致性程度, 确定所述第 二样本文本的识别结果与 所 述第三样本文本的识别结果之间的第二差异。 10.一种搜索方法, 其中, 包括: 获取用户输入的查询文本; 将所述查询文本输入至训练过的命名实体识别模型中, 得到所述查询文本对应的标签 序列; 根据所述标签序列以及所述 查询文本, 确定查询结果;权 利 要 求 书 2/3 页 3 CN 114662494 A 3

.PDF文档 专利 命名实体识别方法、模型训练方法、设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 命名实体识别方法、模型训练方法、设备及存储介质 第 1 页 专利 命名实体识别方法、模型训练方法、设备及存储介质 第 2 页 专利 命名实体识别方法、模型训练方法、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。