专利一种基于表示学习的知识衍生方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210206403.6 (22)申请日 2022.03.03 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人武楠　张佳音　李彬　张婷婷　李玉滢　张雅情　 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于表示学习的知识衍生方法 (57)摘要本发明提出一种基于表示学习的知识衍生方法，能够提升网络知识图谱的准确性与完备性，使网络知识图谱向着更深更广的方向演进。包括：针对网络知识动态时变特性，采用将知识结构与知识内容分开存储的方式，建立表征网络知识的知识图谱；对所述知识图谱内所有特征实体采用Word2Vec与GraphSAGE的知识图谱表示学习方法进行向量表示；计算特征实体的向量与已有实体的向量的余弦相似度，选出所述余弦相似度最高的已有实体作为预备迁移对象；对所述余弦相似度进行阈值判断并分类型进行迁移学习，将原来的神经网络模型迁移成为新知识。权利要求书1页说明书3页附图1页 CN 114756683 A 2022.07.15 CN 114756683 A 1.一种基于表示学习的知识衍生方法，其特征在于，包括：针对网络知识动态时变特性，采用将知识结构与知识内容分开存储的方式，建立表征网络知识的知识图谱；对所述知识图谱内所有特征实体采用Word2Vec与GraphSAGE的知识图谱表示学习方法进行向量表示；计算特征实体的向量与已有实体的向量的余弦相似度，选出所述余弦相似度最高的已有实体作为预备迁移对象；对所述余弦相似度进行阈值判断并分类型进行迁移学习，将原来的神经网络模型迁移成为新知识。 2.如权利要求1所述的一种基于表示学习的知识衍生方法，其特征在于，所述知识图谱采用以网络元素的关键属性表征为实体，以属性间的数值计算关系为计算符，将二者作为基础元素，利用图谱形式表示事物间的联系。 3.如权利要求1或2所述的一种基于表示学习的知识衍生方法，其特征在于，所述采用 Word2Vec与GraphSAGE的知识图谱表示学习方法进行向量表示，具体为：首先采用Word2Vec 方法完成词的分布式表示，然后运用GraphSAGE算法从顶点的局部邻居采样中聚合顶点特征。 4.如权利要求3所述的一种基于表示学习的知识衍生方法，其特征在于，所述采用 Word2Vec方法完成词的分布式表示为：采用Word2Vec/Skip ‑gram with Negative Sampling在中文维基百科、百度百科、人民日报语料库上训练得到中文词向量，将每个顶点包含的知识中的文字部分进行自然语言处理，得到该节点初始化时的向量。 5.如权利要求3或4所述的一种基于表示学习的知识衍生方法，其特征在于，所述运用 GraphSAGE算法从顶点的局部邻居采样中聚合顶点特征，具体包括： ①对每个顶点的邻居顶点进行采样； ②根据聚合函数聚合所述邻居顶点蕴含的信息； ③得到各顶点的向量表示供下游任务使用。 6.如权利要求1或2所述的一种基于表示学习的知识衍生方法，其特征在于，所述阈值判断并分类型进行迁移学习采用以下方式：若所述余弦相似度大于给定阈值，则选定所述预备迁移对象为迁移对象，迁移学习将迁移对象的神经网络模型迁移到目标实体的网络环境中训练，保留原神经网络模型的卷积层结构与权重，修改全连接层结构，匹配输出属性维度，重新训练全连接层权重，衍生出针对目标实体的计算型知识；若所述余弦相似度小于给定阈值，则将目标实体衍生为新类别，采用迁移学习、元学习的小样本学习技术训练神经网络，使其识别新类别。权　利　要　求　书 1/1 页 2 CN 114756683 A 2一种基于表示学习的知识衍生方法技术领域 [0001]本发明属于知识图谱技术领域，涉及一种基于表示学习的知识衍生方法。背景技术 [0002]谷歌于20 12年提出了具有图结构的三元组知识库—— “知识图谱 ”，本质上是语义网络，是一种基于图的数据结构，由节点和边组成。节点可以是实体或是抽象的概念，边可以是实体的属性或是实体之间的关系。知识图谱将知识表征为图与文字的形式，这种离散的符号化的表达方式可以非常有效地将数据结构化，但是并不能在计算机中表达相应语义层面的信息，也不能进行语义计算，难以与机器学习方法深度耦合，对下游的一些应用并不友好。在基于网络结构的知识图谱上，进行相关应用时，因为图结构的特殊性，应用算法的使用与图算法有关，相关算法有较高的复杂度，面对大规模的知识库很难扩展。 [0003]为解决这些挑战，在词向量的启发下，研究者考虑如何将知识图谱中的实体和关系映射到连续的向量空间，并包含一些语义层面的信息，使得在下游任务中更加方便地操作知识图谱。对于计算机来说，连续向量的表达可以蕴含更多的语义，更容易被计算机理解和操作。把这种将知识图谱中包括实体和关系的内容映射到连续向量空间方法的研究领域称为知识图谱的表示学习。 [0004]在复杂多变的网络环境中，知识图谱实体间的计算关系也会实时改变。将这种计算关系称为关系型知识。知识衍生技术能够在已有知识中挖掘、发现新的知识，这里主要关注关系型知识，如神经网络模型。利用知识衍生技术，可自适应地衍生出实体对间的计算关系，丰富和拓展知识图谱。发明内容 [0005]本发明针对上述缺陷，提出一种基于表示学习的知识衍生方法，能够提升网络知识图谱的准确性与完备性，使网络知识图谱向着更深更广的方向演进。 [0006]本发明通过以下技术方案实现。 [0007]一种基于表示学习的知识衍生方法，包括： [0008]针对网络知识动态时变特性，采用将知识结构与知识内容分开存储的方式，建立表征网络知识的知识图谱； [0009]对所述知识图谱内所有特征实体采用Word2Vec与GraphSAGE的知识图谱表示学习方法进行向量表示； [0010]计算特征实体的向量与已有实体的向量的余弦相似度，选出所述余弦相似度最高的已有实体作为预备迁移对象； [0011]对所述余弦相似度进行阈值判断并分类型进行迁移学习，将原来的神经网络模型迁移成为新知识。 [0012]本发明的有益效果： [0013]本发明采用基于Word2Vec与GraphSAGE的表示学习方法，获得包含节点自身信息说　明　书 1/3 页 3 CN 114756683 A 3

专利 一种基于表示学习的知识衍生方法

专利一种基于表示学习的知识衍生方法