全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211098761.6 (22)申请日 2022.09.09 (71)申请人 北京澜舟 科技有限公司 地址 100000 北京市海淀区海淀大街3号1 幢10层10 01 (72)发明人 孟祥傲 马永亮 周明  (74)专利代理 机构 深圳市智享知识产权代理有 限公司 4 4361 专利代理师 王琴 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) (54)发明名称 一种实体链接方法及存 储介质 (57)摘要 本发明涉及实体链接技术领域, 特别涉及一 种实体链接方法及存储介质, 实体链接方法包括 以下步骤: 获取第一检索器, 第一检索器为稠密 检索器; 获取第二检索器; 对第一检索器与第二 检索器进行训练获取链指 模型; 通过链指模型计 算需要链指的实体指称与实体描述之间的相似 度, 取相似度最高的实体作为链指结果; 或者, 取 相似度最高的预设个数实体作为召回结果。 本发 明的实体链接方法既可以保留稠密检索器对于 语义的编码特性, 又能结合稀 疏检索器对于重点 词汇、 短语的匹配能力, 对于实体链接任务的精 度有很大的提升, 极大地提高了实体链接的准确 性。 本发明还提供一种存储介质, 用于执行上述 方法, 与上述方法的有益效果相同的。 权利要求书1页 说明书8页 附图3页 CN 115203438 A 2022.10.18 CN 115203438 A 1.一种实体链接方法, 其特 征在于: 包括以下步骤: 获取第一检索器, 所述第一检索器为稠密检索器; 获取第二检索器; 对所述第一检索器与所述第二检索器进行训练获取链指模型; 通过链指模型计算需要链指的实体指称与实体描述之间的相似度, 取相似度最高的实 体作为链指结果; 或者, 取相似度最高的预设个数实体作为召回结果。 2.如权利要求1所述的实体链接方法, 其特征在于: 取相似度最高的预设个数实体作为 召回结果之后还 包括以下步骤: 对召回结果进行重排。 3.如权利要求1所述的实体链接方法, 其特 征在于: 所述预设个数实体为5 ‑10个实体。 4.如权利要求2所述的实体链接方法, 其特征在于: 对召回结果进行重排包括以下步 骤: 检查相似度最高的预设个数实体和查询句中实体指称的相关性, 取相关性最高的实体 作为链指结果。 5.如权利要求1所述的实体链接方法, 其特 征在于: 获取第二检索器包括以下步骤: 获取稀疏检索器; 用bi‑encoder模型作 为学生去学习所述稀疏检索器的检索 结果, 学习之后的检索器为 第二检索器。 6.如权利要求5所述的实体链接方法, 其特征在于: 所述稀疏检索器为基于词法的稀疏 检索器。 7.如权利 要求5所述的实体链接方法, 其特征在于: 所述bi ‑encoder模型为不共享参数 的bi‑encoder模型。 8.如权利要求1所述的实体链接方法, 其特征在于: 对所述第 一检索器与所述第 二检索 器进行训练获取链指模型的步骤 包括: 第一检索器分别对查询句和段落信息进行编码得到QA与PA; QA为编码后的查询句, PA为 编码后的段落信息; 第二检索器分别对查询句和段落信息进行编码得到QB与PB; QB为编码后的查询句, PB为 编码后的段落信息; 将QA与QB拼接得到Q, Q为实体指称的向量表示; 将PA与PB拼接得到P, P为实体描 述的向量 表示; 计算Q和P的相似度, 优化参数使正确的实体指称和实体描述之间相似度高, 不匹配的 实体指称和实体描述之间相似度小, 训练后获得 所述链指模型。 9.如权利要求1所述的实体链接方法, 其特征在于: 链指模型计算需要链指的实体指称 与实体描述之间的相似度包括以下步骤: 对需要链指的实体及其描述向量 化并创建索引; 将需要链指的实体指称及其上 下文向量 化; 通过余弦相似度计算实体指称与实体描述之间的相似度。 10.一种存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序被处理器执 行时实现权利要求1 ‑9任一项所述的实体链接方法。权 利 要 求 书 1/1 页 2 CN 115203438 A 2一种实体链接 方法及存储介质 技术领域 [0001]本发明涉及实体链接技 术领域, 特别涉及一种实体链接方法及存 储介质。 背景技术 [0002]实体链接指根据上下文, 将实体指称连接到知识库 中无歧义的实体, 是各种知识 密集型自然语言处理系统的重要组成部 分。 传统实体链接方法首先从知识库中抽取实体别 名表, 之后实体指称表生成候选实体, 最后设计候选实体消歧模型完成对实体指称的链接。 该类方法较非常依赖于候选实体生成模块, 容易遗漏语义相近但字符串匹配差异较大的候 选实体; 随着近年来预训练语言模型的发展, 又出现了很多基于稠密检索的实体链接方法。 该类方法通常采用预训练语 言模型分别对查询句 (query) 和段落信息 (passage) 进行编码, 之后根据二者之间的语义相似度来进行排序。 这种方法虽然擅长捕捉语义, 但容易根据实 体中的部分语义信息进行检索, 从而忽略整体信息, 或根据查询句的其他部分的语义信息 进行检索, 带来了极大的误差 。 发明内容 [0003]为提高实体链接的准确性, 本发明提供了一种实体链接方法及存 储介质。 [0004]本发明解决技 术问题的方案是提供一种实体链接方法, 包括以下步骤: 获取第一检索器, 所述第一检索器为稠密检索器; 获取第二检索器; 对所述第一检索器与所述第二检索器进行训练获取链指模型; 通过链指模型计算需要链指的实体指称与实体描述之间的相似度, 取相似度最高 的实体作为链指结果; 或者, 取相似度最高的预设个数实体作为召回结果。 [0005]优选地, 取相似度最高的预设个数实体作为召回结果之后还 包括以下步骤: 对召回结果进行重排。 [0006]优选地, 所述预设个数实体为5 ‑10个实体。 [0007]优选地, 对召回结果进行重排包括以下步骤: 检查相似度最高的预设个数实体和查询句中实体指称的相关性, 取相关性最高 的 实体作为链指结果。 [0008]优选地, 获取第二检索器包括以下步骤: 获取稀疏检索器; 用bi‑encoder模型作为学生去学习所述稀疏检索器的检索结果, 学习之后的检索 器为第二检索器。 [0009]优选地, 所述稀疏检索器为基于词法的稀疏检索器。 [0010]优选地, 所述bi ‑encoder模型为 不共享参数的bi ‑encoder模型。 [0011]优选地, 对所述第一检索器与所述第二检索器进行训练获取链指模型的步骤包 括:说 明 书 1/8 页 3 CN 115203438 A 3

.PDF文档 专利 一种实体链接方法及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体链接方法及存储介质 第 1 页 专利 一种实体链接方法及存储介质 第 2 页 专利 一种实体链接方法及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:39:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。