全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210055153.0 (22)申请日 2022.01.18 (71)申请人 新华智云科技有限公司 地址 310012 浙江省杭州市西湖区文一西 路460号文娱中心43 0室 (72)发明人 辛宇  (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 代理人 杨琪宇 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于富文本特征的新闻实体链接方法 和系统 (57)摘要 本发明公开了一种基于富文本特征的新闻 实体链接方法和系统, 所述方法包括如下步骤: 构建候选实体的知识图谱, 其中所述知识图谱包 括指称实体和候选实体; 获取新闻数据, 从所述 新闻数据中识别指称实体, 根据所述指称实体从 所述知识图谱中查找候选实体; 将所述新闻数据 进行分句获取上下文短句列表, 筛选包含所述指 称实体的所有上下文短句, 生成上下文特征列 表, 获取候选实体的描述文本特征和附加属性特 征, 构建富文本特征, 将所述富文本特征输入到 二分类模型中训练, 训练完毕后用于预测指称实 体和候选实体的匹配的分类概率。 所述方法和系 统结合Attention计算让模型综合性考虑了不同 描述方式下的文本语境, 极大程度上提高了模型 在复杂文本场景 下的辨识度。 权利要求书1页 说明书5页 附图1页 CN 114416923 A 2022.04.29 CN 114416923 A 1.一种基于富文本特 征的新闻实体链接方法, 其特 征在于, 所述方法包括如下步骤: 构建候选实体的知识图谱, 其中所述知识图谱 包括指称实体和候选实体; 获取新闻数据, 从所述新闻数据中识别指称实体, 根据所述指称实体从所述知识图谱 中查找候选实体; 将所述新闻数据进行分句获取上下文短句列表, 筛选包含所述指称 实体的所有上下文 短句, 生成上 下文特征列表; 获取候选实体的描述文本特 征和附加 属性特征, 构建富文本特 征; 将所述富文本特征输入到二分类模型中训练, 训练完毕后用于预测指称 实体和候选实 体的匹配的分类概 率。 2.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法, 其特征在于, 获取 新闻数据后, 根据新闻数据中文本的标点符号进行分句, 遍历所有分句后筛选出包括所述 指称实体的上 下问短句作为所述上 下文特征列表。 3.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法, 其特征在于, 所述 实体的抽取方法包括: 调用分词算法或实体识别算法抽取新闻数据文本中的包括人物、 机 构和地理信息, 生成指称实体列表。 4.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法, 其特征在于, 在所 述知识图谱中通过调用搜索获取指称实体对应的候选实体列表。 5.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法, 其特征在于, 通过 对所述知识图谱的搜索获取所述指称实体对应的描述文本特征和对应候选实体的附属属 性特征, 将所述上下文 特征列表、 描述文本特征和附属属性特征组装成富文本特征, 输入到 二分类模型中训练。 6.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法, 其特征在于, 所述 富文本特征 的组装方法包括: 遍历上下文特征列表, 将所述上下文特征列表的每个上下文 特征输入到BERT模型中, 输出上下文特征向量, 所有的上下文特征向量进行累加得到上下 文输入值V1。 7.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法, 其特征在于, 获取 候选实体对应的知识图谱描文本, 并将所述描述文本输入到BERT模 型中输出描述文本输入 值, 将所述描述文本输入值结合所述上下文输入值进行自注意力attention计算得到第一 结合输入值V2, 将候选实体的附加属性进行编码得到属性输入值V3, 将所述属性输入值V3 和第一结合输入值V 2累加得到最终的模型输入值V作为 富文本特 征。 8.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法, 其特征在于, 设置 所述二分类模型的分数阈值, 当输出的候选实体和指称实体的二分类分数大于所述分类阈 值, 则判定候选实体和指称实体匹配成功。 9.一种基于富文本特征的新闻实体链接系统, 其特征在于, 所述系统执行权利要求1 ‑8 中任意一项所述的一种基于富文本特 征的新闻实体链接方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序可被处理器执行权利要求1 ‑8中任意一项所述的一种基于富文本特征 的新闻实体链接方法。权 利 要 求 书 1/1 页 2 CN 114416923 A 2一种基于富文本特征的新 闻实体链接 方法和系统 技术领域 [0001]本发明涉及 新闻传媒技术领域, 特别涉及 一种基于富文本特征的新闻实体链接方 法和系统。 背景技术 [0002]在新闻结构化过程中常常需要利用NLP技术识别其中的人物、 机构、 地理等指称实 体并链接至知识图谱中对应的目标实体, 通过知识图谱中详细的实体信息有助于解析新闻 从而更好服务于下游应用, 其中实体链接是将新闻中提及的指称实体与知识图谱中唯一对 应实体进行匹配的关键技术。 由于自然语言存在 复杂的歧义性, 新闻中指称实体可能在知 识图谱中存在较多同名实体, 同时不同的上下文信息对链接结果也会造成较大影响, 这些 条件使得实体链接极具挑战性。 [0003]现有方案中, 主要是抽 取实体在新闻中的上下文, 将其与知识图谱中候选实体的 描述文本联合构建深度学习模型进行相似度对比, 根据相似度分数判断是否链接成功。 另 外还有利用分词等辅助手段计算指称实体与候选实体描述文本的分词匹配度进行判断。 然 而现有技 术方案存在 如下技术问题: [0004]目前实体链接方法的主要问题在于往往新闻中指称实体有多段上下文, 每段上下 文包含了不同程度的信息, 而建模时通常只使用指称实体首次出现的上下文, 单一的特征 使模型没有充分感知到指称实体与候选实体之 间的联系与差异, 导致模型学习不充分模型 准确度不足; 在建模中只使用了知识图谱中候选实体的描述文本, 没有使用到候选实体的 其他属性, 比如候选实体的类别、 别名等等, 这些结构化属性相比纯文本能够提供明确的先 验知识从而提高模型 的区分度; 通过分词计算匹配度的方案难以评估文本间的语义信息, 泛化性不足, 难以支持不同场景、 语义下的新闻文本链接 。 发明内容 [0005]本发明其中一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和 系统, 所述方法和系统将原始单一的文本特征替换为由三个部分组成的富文本特征, 其中 富文本特征 由上下文信息、 知识图谱的描述文本和知识图谱的附加属 性融合构建, 通过多 维度数据训练模型 可以提高指称新闻实体和候选新闻实体差异的区分能力。 [0006]本发明另一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和系 统, 所述方法和系统结合Attention计算让模 型综合性考虑了不同描述方式下的文本语境, 极大程度上提高了模型在复杂文本场景 下的辨识度。 [0007]本发明另一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和系 统, 所述方法和系统通过联合候选实体描述文本与附加属性得到富文本特征以构建深度学 习分类模型并在历史海量新闻数据的基础上进行训练, 从而 可以提高实体连接模型分类判 断的准确率。 [0008]为了实现至少一个上述发明目的, 本发明进一步提供一种基于富文本特征的新闻说 明 书 1/5 页 3 CN 114416923 A 3

.PDF文档 专利 一种基于富文本特征的新闻实体链接方法和系统

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于富文本特征的新闻实体链接方法和系统 第 1 页 专利 一种基于富文本特征的新闻实体链接方法和系统 第 2 页 专利 一种基于富文本特征的新闻实体链接方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。