专利一种基于图注意力和条件随机场的知识图谱噪声修复方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210165543.3 (22)申请日 2022.02.18 (71)申请人郑州轻工业大学地址 450000 河南省郑州市高新技术产业开发区科学大道136号 (72)发明人马江涛　周辰宇　王艳军　李祖贺　李璞　李端阳　贾泽臣　李霆　 (74)专利代理机构郑州优盾知识产权代理有限公司 41125 专利代理师栗改 (51)Int.Cl. G06F 16/36(2019.01) (54)发明名称一种基于图注意力和条件随机场的知识图谱噪声修复方法 (57)摘要本发明提出了一种基于图注意力和条件随机场的知识图谱噪声修复方法，用于解决现有知识图谱噪声修复方法的复杂度大，准确率不高的技术问题。本发明的步骤为：根据待修复的噪声三元组寻找其各个元素的邻居节点组成邻域，根据邻域构建噪声三元组的局部图；图注意力模型利用注意力衰退机制从局部图中学习噪声三元组的邻域特征，得到所有实体和关系的特征矩阵；条件随机场通过学习局部图中各个节点的特征矩阵以及节点的类型，从局部图中选择合适的节点替换噪声三元组；输出修复后的三元组。本发明提出的图注意力 ‑条件随机场模型比传统方法拥有更高的效率和更好的效果，可以进一步提高知识图谱质量，从而提高用户体验。权利要求书4页说明书10页附图3页 CN 115544261 A 2022.12.30 CN 115544261 A 1.一种基于图注意力和条件随机场的知识图谱噪声修复方法，其特征在于，其步骤如下：步骤一、根据待修复的噪声三元组寻找其各个元素的邻居节点组成邻域，根据邻域构建噪声三元组的局部图；步骤二、图注意力模型利用注意力衰退机制从局部图中学习噪声三元组的邻域特征，得到所有实体和关系的特征矩阵；步骤三、条件随机场通过学习局部图中各个节点的特征矩阵以及节点的类型，从局部图中选择合适的节点替换噪声三元组；步骤四、输出修复后的三元组。 2.根据权利要求1所述的基于图注意力和条件随机场的知识图谱噪声修复方法，其特征在于，所述局部图中包括头实体 s、尾实体o、关系r以及知识图谱中与s,r,o有关联的其他元素nij，即局部图G＝{s,r,o,nij}。 3.根据权利要求2所述的基于图注意力和条件随机场的知识图谱噪声修复方法，其特征在于，所述图注意力模型将局部图中的节点的多阶邻域信息通过注意力衰退算法整合到节点的特征矩阵中，得到节点的特征矩阵，即节点的新的嵌入表示；并从待噪声三元组及其邻域节点所组成的局部图G中，将所有的n个实体加入到集合E中，所有的m个关系加入到关系集合R中；集合E中的元素可作为头实体和/或尾实体，所述条件随机场从头实体集合、关系集合R、尾实体集合中选择合适的元素修复噪声三元组的元素。 4.根据权利要求3所述的基于图注意力和条件随机场的知识图谱噪声修复方法，其特征在于，所述步骤一的实现方法为：利用TransE模型得到三元组f＝{s,r,o}的初始嵌入矩阵{h1,h2,h3}；找到三元组f的邻域，组成局部图G＝{h1,h2,h3,......,hL}，其中， hi为图的节点的初始嵌入矩阵，节点是实体或关系， L表示图中节点的最大数量。 5.根据权利要求1或4中任意一项所述的基于图注意力和条件随机场的知识图谱噪声修复方法，其特征在于，所述步骤二图注意力模型的实现方法为：初始化路径数量N＝n，若N ＝0，按照邻域节点的类型，添加到实体集合E和关系集合R中，否则计算邻域结点的邻域特征，并根据邻域节点的类型，添加到实体集合E和关系集合R中；其中n为噪声三元组中实体的个数。 6.根据权利要求5所述的基于图注意力和条件随机场的知识图谱噪声修复方法，其特征在于，所述注意力衰退机制的实现方法为：使用LeakyReLU()激活函数对相关系数e(i, j)进行激活，经过归一化后得到中心节点hi和节点hj的注意力系数α(i,j)为：其中， softmax()表示归一化函数，表示激活函数， exp表示指数函数；中心节点hi的特征为将初始嵌入矩阵加入到中心节点hi的特征中得到特征矩阵：权　利　要　求　书 1/4 页 2 CN 115544261 A 2引入多个相互独立的注意力头，将各个注意力头的输出结果取平均，得到中心节点hi的邻域矩阵：其中， Head表示注意力头的数量； σ( ·)是激活函数， ⊙表示Hadamard乘积， W3和W4均为参数矩阵， W2为参数矩阵， χ(i,j)为平衡参数；且 mj表示中心节点 hi的邻居节点hj出现的次数； mi为中心节点hi的所有邻居节点的数量， β表示超参数， MAX [·]表示取最大值函数。 7.根据权利要求6所述的基于图注意力和条件随机场的知识图谱噪声修复方法，其特征在于，所述相关系数 e(i,j)的计算方法为： e(i,j)＝aT·μL·([W1·hi||W1·hj]),j∈Ni且 μL＝ μ0·θL‑1；其中， [·||·]表示对局部图G 中的中心节点hi和节点hj的变换后的特征的拼接， a为前馈神经网络， W1为参数矩阵， Ni为节点hi的邻居的数量， μL表示第L跳邻居节点hj对于中心节点hi的注意力衰退系数， μ0为注意力衰退系数μL的初始值， θ表示一个介于0和1之间的超参数。 8.根据权利要求3、 4或6所述的基于图注意力和条件随机场的知识图谱噪声修复方法，其特征在于，所述条件随机场从实体集合E和关系集合R中，选择合适的实体和关系修复噪声三元组f，实施方法为：以矩阵的形式表示条件随机场，引进特殊的起点和终点状态标记y0＝start、 y4＝stop 分别表示状态序列Y的开始与终止状态，并定义状态序列和观测序列分别为： Y＝{y0＝start,y1＝s∈S,y2＝r∈R,y3＝o∈O,y4＝stop}； X＝{x1＝S,x2＝R,x3＝O}；状态序列Y是从头实体集合E、关系集合R和尾实体集合中抽取的不同元素所组成的状态序列，状态序列Y中的每一个状态都是实体或关系；在输入的实体和关系集合给定的情况下，被预测的状态序列Y的概率为： D(x)＝{Di(yi‑1,yi|x)}；其中， D是m ×n阶的矩阵， m是状态yi‑1的取值数量， n是状态yi的取值数量，矩阵Di(yi‑1, yi|x)代表状态yi‑1的m种取值到状态yi的n种取值的转移概率； Z(x)是归一化因子， tk为转移特征，且表示从状态yi‑1的取值到状态yi的条件概率； sl是状态特征，表示当前位置是状态yi 的概率； k∈[1,K]表示转移特征的个数； l∈[1,L]表示状态特征的个数， L、 K分别表示转移特征和状态特征的总数量； i∈[1,3]表示位置序号； λk和 μl是对应的权值；计算条件概率Pω(y|x)，取能使非规范化的条件概率Pω(y|x)最大的sk,rk,ok替换原三元组中的三元素，即： Pω(y1＝sk,y2＝rk,y3＝ok|x)＝MAX[ Pω(y|x)] 其中， MAX[ ·]表示最大值函数。权　利　要　求　书 2/4 页 3 CN 115544261 A 3

专利 一种基于图注意力和条件随机场的知识图谱噪声修复方法

专利一种基于图注意力和条件随机场的知识图谱噪声修复方法