专利一种基于富文本特征的新闻实体链接方法和系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210055153.0 (22)申请日 2022.01.18 (71)申请人新华智云科技有限公司地址 310012 浙江省杭州市西湖区文一西路460号文娱中心43 0室 (72)发明人辛宇　 (74)专利代理机构杭州裕阳联合专利代理有限公司 33289 代理人杨琪宇 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于富文本特征的新闻实体链接方法和系统 (57)摘要本发明公开了一种基于富文本特征的新闻实体链接方法和系统，所述方法包括如下步骤：构建候选实体的知识图谱，其中所述知识图谱包括指称实体和候选实体；获取新闻数据，从所述新闻数据中识别指称实体，根据所述指称实体从所述知识图谱中查找候选实体；将所述新闻数据进行分句获取上下文短句列表，筛选包含所述指称实体的所有上下文短句，生成上下文特征列表，获取候选实体的描述文本特征和附加属性特征，构建富文本特征，将所述富文本特征输入到二分类模型中训练，训练完毕后用于预测指称实体和候选实体的匹配的分类概率。所述方法和系统结合Attention计算让模型综合性考虑了不同描述方式下的文本语境，极大程度上提高了模型在复杂文本场景下的辨识度。权利要求书1页说明书5页附图1页 CN 114416923 A 2022.04.29 CN 114416923 A 1.一种基于富文本特征的新闻实体链接方法，其特征在于，所述方法包括如下步骤：构建候选实体的知识图谱，其中所述知识图谱包括指称实体和候选实体；获取新闻数据，从所述新闻数据中识别指称实体，根据所述指称实体从所述知识图谱中查找候选实体；将所述新闻数据进行分句获取上下文短句列表，筛选包含所述指称实体的所有上下文短句，生成上下文特征列表；获取候选实体的描述文本特征和附加属性特征，构建富文本特征；将所述富文本特征输入到二分类模型中训练，训练完毕后用于预测指称实体和候选实体的匹配的分类概率。 2.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法，其特征在于，获取新闻数据后，根据新闻数据中文本的标点符号进行分句，遍历所有分句后筛选出包括所述指称实体的上下问短句作为所述上下文特征列表。 3.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法，其特征在于，所述实体的抽取方法包括：调用分词算法或实体识别算法抽取新闻数据文本中的包括人物、机构和地理信息，生成指称实体列表。 4.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法，其特征在于，在所述知识图谱中通过调用搜索获取指称实体对应的候选实体列表。 5.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法，其特征在于，通过对所述知识图谱的搜索获取所述指称实体对应的描述文本特征和对应候选实体的附属属性特征，将所述上下文特征列表、描述文本特征和附属属性特征组装成富文本特征，输入到二分类模型中训练。 6.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法，其特征在于，所述富文本特征的组装方法包括：遍历上下文特征列表，将所述上下文特征列表的每个上下文特征输入到BERT模型中，输出上下文特征向量，所有的上下文特征向量进行累加得到上下文输入值V1。 7.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法，其特征在于，获取候选实体对应的知识图谱描文本，并将所述描述文本输入到BERT模型中输出描述文本输入值，将所述描述文本输入值结合所述上下文输入值进行自注意力attention计算得到第一结合输入值V2，将候选实体的附加属性进行编码得到属性输入值V3，将所述属性输入值V3 和第一结合输入值V 2累加得到最终的模型输入值V作为富文本特征。 8.根据权利要求1所述的一种基于富文本特征的新闻实体链接方法，其特征在于，设置所述二分类模型的分数阈值，当输出的候选实体和指称实体的二分类分数大于所述分类阈值，则判定候选实体和指称实体匹配成功。 9.一种基于富文本特征的新闻实体链接系统，其特征在于，所述系统执行权利要求1 ‑8 中任意一项所述的一种基于富文本特征的新闻实体链接方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被处理器执行权利要求1 ‑8中任意一项所述的一种基于富文本特征的新闻实体链接方法。权　利　要　求　书 1/1 页 2 CN 114416923 A 2一种基于富文本特征的新闻实体链接方法和系统技术领域 [0001]本发明涉及新闻传媒技术领域，特别涉及一种基于富文本特征的新闻实体链接方法和系统。背景技术 [0002]在新闻结构化过程中常常需要利用NLP技术识别其中的人物、机构、地理等指称实体并链接至知识图谱中对应的目标实体，通过知识图谱中详细的实体信息有助于解析新闻从而更好服务于下游应用，其中实体链接是将新闻中提及的指称实体与知识图谱中唯一对应实体进行匹配的关键技术。由于自然语言存在复杂的歧义性，新闻中指称实体可能在知识图谱中存在较多同名实体，同时不同的上下文信息对链接结果也会造成较大影响，这些条件使得实体链接极具挑战性。 [0003]现有方案中，主要是抽取实体在新闻中的上下文，将其与知识图谱中候选实体的描述文本联合构建深度学习模型进行相似度对比，根据相似度分数判断是否链接成功。另外还有利用分词等辅助手段计算指称实体与候选实体描述文本的分词匹配度进行判断。然而现有技术方案存在如下技术问题： [0004]目前实体链接方法的主要问题在于往往新闻中指称实体有多段上下文，每段上下文包含了不同程度的信息，而建模时通常只使用指称实体首次出现的上下文，单一的特征使模型没有充分感知到指称实体与候选实体之间的联系与差异，导致模型学习不充分模型准确度不足；在建模中只使用了知识图谱中候选实体的描述文本，没有使用到候选实体的其他属性，比如候选实体的类别、别名等等，这些结构化属性相比纯文本能够提供明确的先验知识从而提高模型的区分度；通过分词计算匹配度的方案难以评估文本间的语义信息，泛化性不足，难以支持不同场景、语义下的新闻文本链接。发明内容 [0005]本发明其中一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和系统，所述方法和系统将原始单一的文本特征替换为由三个部分组成的富文本特征，其中富文本特征由上下文信息、知识图谱的描述文本和知识图谱的附加属性融合构建，通过多维度数据训练模型可以提高指称新闻实体和候选新闻实体差异的区分能力。 [0006]本发明另一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和系统，所述方法和系统结合Attention计算让模型综合性考虑了不同描述方式下的文本语境，极大程度上提高了模型在复杂文本场景下的辨识度。 [0007]本发明另一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和系统，所述方法和系统通过联合候选实体描述文本与附加属性得到富文本特征以构建深度学习分类模型并在历史海量新闻数据的基础上进行训练，从而可以提高实体连接模型分类判断的准确率。 [0008]为了实现至少一个上述发明目的，本发明进一步提供一种基于富文本特征的新闻说　明　书 1/5 页 3 CN 114416923 A 3

专利 一种基于富文本特征的新闻实体链接方法和系统

专利一种基于富文本特征的新闻实体链接方法和系统