专利一种用于知识超图的可解释性链接预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210324786.7 (22)申请日 2022.03.30 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人王鑫　陈子睿　王晨旭　刘鑫　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师李丽萍 (51)Int.Cl. G06F 16/955(2019.01) G06F 16/36(2019.01) G06N 7/00(2006.01) (54)发明名称一种用于知识超图的可解释性链接预测方法 (57)摘要本发明公开了一种用于知识超图的可解释性链接预测方法，包括基于知识超图嵌入模型和马尔科夫逻辑网络构建可解释的知识超图表示学习模型；通过马尔科夫逻辑网络为知识超图的所有可观测元组和隐元组建立联合概率，以最大化可观测元组的对数似然为训练目标；采用变分 EM算法优化对数似然函数的置信下界实现模型的训练和验证；利用验证后的可解释的知识超图表示学习模型对知识超图数据集进行链接预测，即将知识超图数据集中的一个隐元组作为该模型的输入，该模型输出该隐元组成立的概率值和与该隐元组相连的实体和关系对该隐元组成立的贡献度。利用本发明方法能够充分利用逻辑规则中的领域知识及向量空间中的语义信息，提升知识超图表示学习的效果。权利要求书1页说明书8页附图11页 CN 114780879 A 2022.07.22 CN 114780879 A 1.一种用于知识超图的可解释性链接预测方法，其特征在于，包括以下步骤：步骤一、基于知识超图嵌入模型和马尔科夫逻辑网络构建可解释的知识超图表示学习模型；步骤二、通过马尔科夫逻辑网络为知识超图的所有可观测元组和隐元组建立联合概率，以最大化可观测元组的对数似然为训练目标；采用变分EM算法优化对数似然函数的置信下界，包括：首先执行变分E步推理隐元组成立的概率，从而对所述的知识超图嵌入模型的参数进行优化，然后执行M步，根据变分E步推理所得隐元组成立概率值对所述的马尔科夫逻辑网络的逻辑规则权重进行调整，按照此顺序循环迭代变分E步与M步以完成可解释的知识超图表示学习模型的训练与验证；步骤三、利用经过步骤二训练及验证后的可解释的知识超图表示学习模型对知识超图数据集进行链接预测，即将知识超图数据集中的一个隐元组作为该模型的输入，该模型的输出是：该隐元组成立的概率值和与该隐元组相连的实体和关系对该隐元组成立的贡献度。 2.根据权利要求1所述的用于知识超图的可解释性链接预测方法，其特征在于，步骤一的内容是：分别向所述知识超图嵌入模型和马尔科夫逻辑网络输入知识超图的可观测元组，同时，向所述马尔科夫逻辑网络输入与所述的知识超图的可观测元组相应的逻辑规则数据。 3.根据权利要求1所述的用于知识超图的可解释性链接预测方法，其特征在于，步骤二中，所述变分EM算法由变分E步和 M步组成，并按照此顺序循环迭代变分E步与M步以完成可解释的知识超图表示学习模型的训练与验证；执行变分E步时，将逻辑规则中的知识融入知识超图嵌入模型中，对所述的知识超图嵌入模型的参数进行优化；执行M步时，将嵌入空间中的语义信息与逻辑规则结合，对所述的马尔科夫逻辑网络的逻辑规则权重进行调整。 4.根据权利要求1或2所述的用于知识超图的可解释性链接预测方法，其特征在于，对所述的知识超图嵌入模型的参数进行优化的内容包括； 2‑1)调整变分分布优化函数并将知识超图嵌入模型融入变分E步训练中； 2‑2)使用马尔科夫逻辑网络获得隐元组的真实后验分布，并采用采样方式优化马尔科夫毯的计算过程； 2‑3)通过最小化变分分布和真实后验分布的KL散度以优化知识超图嵌入模型的参数值。 5.根据权利要求1或2所述的用于知识超图的可解释性链接预测方法，其特征在于，对所述的马尔科夫逻辑网络的逻辑规则权重进行调整的内容包括： 3‑1)采用伪似然函数作为优化对象，通过优化伪似然函数来最大化对数似然函数以调整逻辑规则权重值； 3‑2)采用随机梯度下降方法计算逻辑规则的梯度，并更新权重值。权　利　要　求　书 1/1 页 2 CN 114780879 A 2一种用于知识超图的可解释性链接预测方法技术领域 [0001]本发明涉及知识超图，尤其涉及一种面向大规模知识超图的表示学习。背景技术 [0002]随着互联网的迅速发展，数据量呈爆炸性的增长。为深入理解用户查询背后的语义信息，进而增强搜索引擎搜索质量， Google公司在2012年第一次提出了知识图谱 (Knowledge Graph)这一概念。知识图谱形式化地描述现实世界中的事物及其相互之间的关系，是以图的形式存储人类知识的大规模语义网络。它将知识表示为三元组p(s,o)，其中 p是谓语， s是主语， o是宾语。一个三元组p(s,o)用于表示资源s与资源o之间具有关系p，或资源s具有属性p且其取值为o。 [0003]知识超图(Knowledge Hypergraph)是一种图结构的知识库，以多元组的形式存储世界上的事实，可以被视作知识图谱的推广，他将知识表示为n元组p(e1,…,en‑1)，其中p是谓语， ei是组成元组的第i个实体。一个 n元组用于表示资源ei间具有关系p。由于现实世界中存在大量事实，在知识超图中储存所有事实是不现实的。所以对现有知识超图的最大挑战是其严重的不完整性，即部分实体间的链接是缺失的。以Freebase为例，其包含的关系有 61％是多元关系，其储存的超过三分之一的实体参与到了多元关系的组成中。面对知识超图的高度不完整性，手动为实体间添加链接是十分耗费人力和物力的，因此产生了对自动推理实体间缺失链接算法的需求。 [0004]知识超图表示学习旨在将实体和关系嵌入为连续低维的向量，以便有效地存储和计算。通过使用这些向量表示，可以有效地表示实体和关系的语义关联，也可以有效地解决计算效率低和数据稀疏的问题。知识表示学习的这些特点对知识超图的构建、推理和应用起着重要的作用。 m ‑TransH是一种代表性的知识超图表示学习方法，它将实体和关系投影到同一个向量空间中。 m ‑TransH模型简单高效，在链接预测问题上取得了可喜的成果。目前研究人员已经提出了几种增强的m ‑TransH模型，包括RAE和NaLP，以提高知识超图在预测和推理方面的能力。然而，知识超图嵌入方法仍然存在两个关键性的挑战。 [0005](1)链接预测的结果不具有可解释性。现有的知识图谱嵌入方法大多为纯数据驱动的黑盒模型，无法清晰表明某个实体或关系对推理结果的贡献度，也无法给出关于预测可靠性的任何信息。对于诸如银行、医疗、法律等决策会产生影响重大的领域而言，给出推理结果的具体缘由是十分重要的。因此，如何成为一个紧迫的技术问题。 [0006](2)嵌入方法无法与逻辑规则的领域知识结合完成推理。目前的大部分表示学习研究集中于保留实体和关系的语义信息以有效预测缺失的n元组，然而一个局限性是，它们没有利用到逻辑规则，逻辑规则可以紧凑地编码领域知识，这在包括解释推理结果等诸多应用中都很有用。因此，使嵌入方法与逻辑规则同步完成推理以同时利用嵌入空间中的语义信息和逻辑规则中的领域知识是知识表示学习未来研究的一个重要方向。 [0007]综上所述，急需一种新的具备可解释性并能够同时利用嵌入空间中的语义信息和逻辑规则中的领域知识的知识超图表示学习方法，解决现有技术中存在的链接预测的结果说　明　书 1/8 页 3 CN 114780879 A 3

专利 一种用于知识超图的可解释性链接预测方法

专利一种用于知识超图的可解释性链接预测方法