全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210990832.7 (22)申请日 2022.08.18 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 蒲仁杰  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 李文渊 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 实体链接模 型处理方法、 装置和实体链接处 理方法、 装置 (57)摘要 一种基于人工智能的实体链接模型处理方 法, 包括: 获取包括训练实体的训练文本, 从实体 知识库确定与训练实体在实体名 称上匹配的各 候选实体; 对 各候选实体中与训练实体在实体语 义上匹配的候选实体的描述信息, 标记链接标签 为正例标签并作为训练实体的训练描述信息、 在 实体语义上不匹配的候选实体的描述信息, 标记 链接标签为负例标签并作为训练描述信息; 对训 练文本进行训练实体的掩码处理, 基于掩码处理 的文本进行实体预测, 获得包括预测实体的预测 文本; 根据预测文本和各训练描述信息确定预测 实体链接向各训练描述信息的预测值; 基于预测 值相对于相应链接标签的预测差异进行模型训 练, 获得实体链接模型。 采用本方法能够提高实 体链接的准确性。 权利要求书4页 说明书36页 附图9页 CN 115329755 A 2022.11.11 CN 115329755 A 1.一种实体链接模型处 理方法, 其特 征在于, 所述方法包括: 获取包括训练实体的训练文本, 从实体知识库中确定与 所述训练实体在实体名称上匹 配的多个候选实体; 对于所述多个候选实体中与所述训练实体在实体语义上匹配的候选实体所对应的描 述信息, 标记 链接标签为 正例标签并作为与所述训练实体对应的训练描述信息; 对于所述多个候选实体中与所述训练实体在实体语义上不匹配的候选实体所对应的 描述信息, 标记 链接标签为负例标签并作为与所述训练实体对应的训练描述信息; 对所述训练文本进行所述训练实体的掩码处理, 并基于掩码处理所得到的文本进行实 体预测, 获得包括预测实体的预测文本; 根据所述预测文本和每个标记有所述链接标签的所述训练描述信 息, 分别确定所述预 测实体链接向每 个所述训练描述信息的相应预测值; 基于所述预测值相对于相应的所述训练描述信 息的链接标签的预测差异, 进行模型训 练, 获得实体链接模型。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述训练文本进行所述训练实体的 掩码处理, 并基于掩码处理所得到的文本进 行实体预测, 获得包括预测实体的预测文本, 包 括: 对所述训练文本进行 所述训练实体的掩码处 理, 获得包括实体掩码标记的掩码文本; 基于所述掩码文本对所述实体掩码标记进行实体预测, 获得所述实体掩码标记对应的 预测实体, 以及包括所述预测实体的预测文本 。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述掩码文本对所述实体掩码标 记进行实体预测, 获得所述实体掩码标记对应的预测实体, 以及包括所述预测实体的预测 文本, 包括: 提取所述实体掩码标记在所述掩码文本中对应的上 下文特征; 根据所述上下文特征对所述实体掩码标记进行实体预测, 获得所述实体掩码标记对应 的预测实体, 以及包括所述预测实体的预测文本 。 4.根据权利要求2所述的方法, 其特征在于, 所述对所述训练文本进行所述训练实体的 掩码处理, 获得包括实体掩码标记的掩码文本, 包括: 确定所述训练实体中的头实体和尾实体, 以及所述头实体和所述尾实体在所述训练文 本中的关联关系; 对所述头实体或所述尾实体进行掩码处 理, 获得包括实体掩码标记的掩码文本; 所述基于所述掩码文本对所述实体掩码标记进行实体预测, 获得所述实体掩码标记对 应的预测实体, 以及包括所述预测实体的预测文本, 包括: 基于所述头实体和所述尾实体中未被掩码的实体, 以及所述关联关系进行实体预测, 获得所述实体掩码标记对应的预测实体, 以及包括所述预测实体的预测文本 。 5.根据权利要求2所述的方法, 其特征在于, 所述对所述训练文本进行所述训练实体的 掩码处理, 获得包括实体掩码标记的掩码文本, 包括: 对所述训练文本进行所述训练实体的掩码处理, 并对所述训练文本 中除所述训练实体 以外的训练字进行随机掩码处 理, 获得包括实体掩码标记和随机掩码标记的掩码文本; 所述基于所述掩码文本对所述实体掩码标记进行实体预测, 获得所述实体掩码标记对权 利 要 求 书 1/4 页 2 CN 115329755 A 2应的预测实体, 以及包括所述预测实体的预测文本, 包括: 基于所述掩码文本对所述实体掩码标记进行实体预测和对所述随机掩码标记进行随 机预测, 获得所述实体掩码标记对应的预测实体和所述 随机掩码标记对应的预测字, 以及 包括所述预测实体和所述预测字的预测文本 。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述预测值相对于相应的所述训 练描述信息的链接标签的预测差异, 进行模型训练, 获得实体链接模型, 包括: 按照针对所述实体链接模型的目标损失函数, 确定所述预测实体和所述训练实体之间 的实体掩码损失、 所述预测字和所述训练字之间的随机掩码损失, 以及所述预测值相对于 相应的所述训练描述信息的链接标签的预测差异; 基于所述目标损 失函数、 所述实体掩码损 失、 所述随机掩码损 失和所述预测差异进行 模型训练, 获得实体链接模型。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述预测文本和每个标记有所述 链接标签的所述训练描述信息, 分别确定所述预测实体链接向每个所述训练描述信息的相 应预测值, 包括: 对所述预测文本和每个标记有所述链接标签的所述训练描述信 息分别进行拼接, 得到 对应的训练拼接信息; 对每个所述训练拼接信 息中的预测文本和训练描述信 息分别进行特征编码, 得到每个 所述训练拼接信息中的预测文本和训练描述信息各自对应的训练特 征; 根据每个所述训练拼接信 息中预测文本的训练特征和训练描述信 息的训练特征, 确定 所述预测实体链接向相应训练拼接信息中的训练描述信息的预测值。 8.根据权利要求7所述的方法, 其特征在于, 所述对每个所述训练拼接信 息中的预测文 本和训练描述信息 分别进行特征编 码, 得到每个所述训练拼接信息中的预测文本和训练描 述信息各自对应的训练特 征, 包括: 将每个所述训练拼接信 息中的预测文本和训练描述信 息分别进行分词处理, 获得每个 所述训练拼接信息中所述预测文本对应的元 素和所述训练描述信息对应的元 素; 对于每个所述训练拼接信 息, 基于相应训练拼接信 息中预测文本对应的元素进行特征 编码, 得到每 个所述训练拼接信息中预测文本对应的训练特 征; 对于每个所述训练拼接信 息, 基于相应训练拼接信 息中训练描述信 息对应的元素进行 特征编码, 得到每 个所述训练拼接信息中训练描述信息对应的训练特 征; 其中, 所述训练特征包括表征所述元素的属性的词嵌入特征、 表征所述元素所属类别 的语句嵌入特 征和表征 所述元素的位置的位置嵌入特 征。 9.根据权利要求1所述的方法, 其特征在于, 所述基于所述预测值相对于相应的所述训 练描述信息的链接标签的预测差异, 进行模型训练, 获得实体链接模型, 包括: 基于所述预测值相对于相应的所述训练描述信 息的链接标签的预测差异, 进行模型预 训练, 获得包括实体识别层和实体链接层的实体链接初始模型; 所述实体识别层用于识别 所述训练文本中的训练实体, 所述实体链接层用于确定预测值; 获取目标训练文本和所述目标训练文本的训练实体在实体知识库中对应的多个标记 有链接标签的训练描述信息; 通过所述目标训练文本和多个所述训练描述信 息, 对所述实体链接初始模型中的所述权 利 要 求 书 2/4 页 3 CN 115329755 A 3

PDF文档 专利 实体链接模型处理方法、装置和实体链接处理方法、装置

文档预览
中文文档 50 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共50页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体链接模型处理方法、装置和实体链接处理方法、装置 第 1 页 专利 实体链接模型处理方法、装置和实体链接处理方法、装置 第 2 页 专利 实体链接模型处理方法、装置和实体链接处理方法、装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。