全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111679368.1 (22)申请日 2021.12.31 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新区望江西 路666号 (72)发明人 刘强 艾坤  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 代理人 田达兵 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种命名实体识别方法及装置 (57)摘要 本申请提供一种命名实体识别方法及 装置, 在样本数据中加入至少一种领域的先验知识; 基 于至少一种领域的先验知识, 对 预训练模型进行 训练, 通过减少预训练模型中多头注 意力机制的 个数, 多头注 意力机制的个数与命名实体识别关 注的领域一致, 如影视领域的命名实体识别中, 从词性上区分主要是重点关注名词、 动词、 形容 词、 数词等识别领域。 让不同头注意力机制关注 不同的识别领域, 同时拉远不同头注 意力机制之 间的距离, 使得多头注意力机制学习到的语义表 达不产生冗余。 权利要求书2页 说明书10页 附图2页 CN 114330348 A 2022.04.12 CN 114330348 A 1.一种命名实体识别方法, 其特 征在于, 所述方法包括: 在样本数据中加入至少一种领域的先验知识; 基于所述至少一种领域的先验知识, 对所述预训练模型进行训练, 在所述预训练模型 训练过程中增大所述预训练模型得到的不同概率分布之间的距离以及降低所述预训练模 型的参数量, 所述预训练模型用于进行命名实体识别。 2.根据权利要求1所述的方法, 其特征在于, 所述降低所述预训练模型的参数量包括: 降低所述预训练模型中多头注意力机制的头数; 其中, 所述降低所述预训练模型中多头注意力机制的头数包括: 基于所述预训练模型 针对的识别领域数量, 设置所述多头注意力机制的头数, 所述多头注意力机制的头数与所 述识别领域数量相同。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述至少一种领域的先验知识, 对所述预训练模型进行训练包括: 对输入文本中的每条句子进行字映射, 得到语义表达矩阵; 对所述输入文本中的每条句子进行位置映射, 得到位置表达矩阵; 基于所述至少一种领域的先验知识, 对所述输入文本中的每条句子进行标注, 得到标 注矩阵; 基于所述语义表达矩阵、 所述位置表达矩阵和所述标注矩阵, 对所述预训练模型进行 训练。 4.根据权利要求3所述的方法, 其特征在于, 所述基于所述语义表达矩阵、 所述位置表 达矩阵和所述标注 矩阵, 对所述预训练模型进行训练包括: 基于所述语义表达矩阵和所述 位置表达矩阵, 得到第一输入数据; 基于所述预训练模型的第一网络对第一输入数据进行处理, 得到第一网络的损 失值, 其中所述第一网络可增大 所述第一网络得到的不同概 率分布之间的距离; 至少基于所述标注 矩阵, 得到第二输入数据和第三输入数据; 基于所述预训练模型的第二网络对第二输入数据进行处 理, 得到第二网络的损失值; 基于所述预训练模型的第三网络对第三输入数据进行处理, 得到第三网络的损 失值, 其中所述第二输入数据和所述第三输入 数据不同, 和/或, 所述第二网络和所述第三网络不 同; 基于所述第一网络的损 失值、 所述第二网络的损 失值和所述第三网络的损 失值, 调整 所述预训练模型的模型参数, 直至所述预训练模型收敛。 5.根据权利要求4所述的方法, 其特征在于, 所述第一网络包括多头注意力机制, 所述 基于所述预训练模型的第一网络对第一输入数据进行处 理, 得到第一网络的损失值包括: 基于所述第一网络对第一输入数据进行处 理, 得到每头注意力机制的输出; 获得任意两 头注意力机制的输出之间的距离; 基于所述任意两头注意力机制的输出之间的距离, 得到第一网络的损 失值, 所述第一 网络的损失值具备增大所述任意两头注意力机制得到的不同概率分布之间的距离的特性, 所述任意两 头注意力机制得到的不同概 率分布是 所述任意两 头注意力机制的输出。 6.根据权利要求1至5中任意一项所述的方法, 其特征在于, 所述在样本数据中加入至 少一种领域的先验知识包括: 在所述样本数据中加入词性信息的先验知识。权 利 要 求 书 1/2 页 2 CN 114330348 A 27.根据权利要求1至 6中任意一项所述的方法, 其特 征在于, 所述方法还 包括: 基于预设词典, 对待预测句子进行 领域映射, 得到第一领域特 征矩阵; 将第一领域特征矩阵和所述待预测句子输入到训练得到的预训练模型中, 得到预训练 模型输出的待预测句子的实体识别结果。 8.一种命名实体识别装置, 其特 征在于, 所述装置包括: 预处理单元, 用于在样本数据中加入至少一种领域的先验知识; 训练单元, 用于基于所述至少一种领域的先验知识, 对所述预训练模型进行训练, 在所 述预训练模型训练过程中增大所述预训练模型得到的不同概率分布之间的距离以及降低 所述预训练模型的参数量, 所述预训练模型用于进行命名实体识别。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 一个或多个处 理器、 存储器; 所述存储器用于存储计算机程序代码, 所述计算机程序代码包括计算机指令, 当所述 一个或多个处理器执行所述计算机指 令时, 所述电子 设备执行如权利要求 1至7任意一项 所 述的命名实体识别方法。 10.一种计算机存储介质, 其特征在于, 用于存储计算机程序, 所述计算机程序被执行 时, 具体用于实现如权利要求1至7任意 一项所述的命名实体识别方法。权 利 要 求 书 2/2 页 3 CN 114330348 A 3

.PDF文档 专利 一种命名实体识别方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种命名实体识别方法及装置 第 1 页 专利 一种命名实体识别方法及装置 第 2 页 专利 一种命名实体识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:42:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。