全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210052086.7 (22)申请日 2022.01.17 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号计算机科 学与技术系819 (72)发明人 冯洋 孙静玉 谭嘉俊 刘子夕  陈振宇 徐宝文  (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于差分测试和嵌入模型的知识图谱 评估方法 (57)摘要 本发明涉及知识图谱质量评估 领域, 提供一 种基于差分测试和嵌入模型的知识图谱评估方 法。 该方法基于变异测试的思想, 变异生成可代 表知识图谱 数据中典型错误的三元组, 并将其作 为输入重训练出对知识 图谱典型错误敏感的优 化嵌入模型。 该方法还基于差分测试的思想, 输 入普通知识 图谱数据获取不同优化嵌入模型的 输出, 根据相似性评估保证输出的一致性和有效 性; 从而可通过符合相似性评估的输出结果再使 用投票策略, 最终计算出符合实际的质量评估指 标。 本发明目的在于解决目前存在的知识图谱质 量评估人工成本高, 耗时长且缺失自动化评估 方 法和过程的难题, 进而帮助评估 人员快速地对知 识图谱质量进行了解并在短时间内获取可靠的 知识图谱评估结果。 权利要求书2页 说明书6页 附图5页 CN 114579753 A 2022.06.03 CN 114579753 A 1.一种基于差分测试和嵌入模型的知识图谱评估方法, 其特征在于, 通过变异测试中 的变异算子自动生成与知识图谱数据对应的错误数据, 并利用错误数据重新训练已有的高 效知识图谱嵌入模型KGEM(Knowledge  Graph Embedding  Models), 利用重训练优化的知识 图谱嵌入模型{M1, M2, M3, M4, M5…}, 将被评估的知识图谱G导入模型Mi, 进行差分测试得到三 元组的分数预测序列对分数预测序列进行筛选。 最后, 利用相似性评估、 投票重组, 得到新 的重组序列, 再计算出有关知识图谱质量的相关指标; 该 方法包括以下步骤: 1)变异数据构造。 给定训练三元组集合T和变异算子集合MO={m0, m1, m2, m3, m4, m5…}; 知识图谱中的数据一般使用三元组表示, 故测试集中的数据也用三元组(h, r, t)表示, 其 中, h表示头实体, r表示关系, t表示尾实体。 首先, 对测试集T 中的正确三元组rti=(hi, ri, ti)执行MO中的某一变异算子mj, 根据mj的所代表的典型错误不同对rti进行不同的变换操 作, 获得不同的变异三元组mtij=(hij, ri, ti)或(hi, rij, ti)或(hi, ri, tij)。 在此操作中某一 变异算子对T中的每一个三元组都生成多个变异 三元组。 记所有变异 三元组集合为N; 接着, 由于自动化生成的变异 三元组中可能存在数据集已知的正确三元 组, 即可能存在hij=hk或 其他等价情况, 故对获得的Ni进行基于封闭世界假设(Closed  Word Assumption)的过滤操 作, 剔除N∩T的相交三元组获得错误变异三元组集合FN, 并对剩下的错误变异三元组打标 签为“False”, 与原测试三元组集 合T标签为 “True”形成最终训练集Tmutation。 2)嵌入模型训练。 给定待训练优化的知识图谱嵌入模型{M1initial, M2initial, M3initial, M4initial, M5initial…}和包含ground  truth标注的训练集Tmutation。 首先, 将训练集Tmutation中的 三元组数据录入 到嵌入模型Miinitial中, 随机生成维度的向量来模拟训练数据三元组。 其次, 计算模拟数据的嵌入模型损失函数Loss, 对于标注为 “True”的三元组Losstrue越小越好, 标 注为“False”的三元组Lossfalse越大越好, 通 过梯度下降法不断更新随机 生成的向量。 最终, 循环给定epoc hs, 训练完毕得到对错 误变异三元组敏感的嵌入 模型集合。 3)差分测试执行。 给定重新训练优化的知识图谱嵌入模型{M1, M2, M3, M4, M5…}和被评估 的知识图谱G, 对知识图谱G的数据集进行 处理得到知识图谱G的实体序列Entity, 关系序列 Relation和三元组序列Triple, 再将序列Entity、 Relation、 Triple分别带入模型{M1, M2, M3, M4, M5…Mi}, 得到每个模型对知识图谱G中每个三元组的分数预测序列Si: {T1: {p1, p2, p3, p4, p5…pi}, T2: {p1, p2, p3, p4, p5…pi},…Ti: {p1, p2, p3, p4, p5…pi}}, 其中Si表示模型Mi对知 识图谱G的三元组分数预测序列, Ti表示第i个 三元组的分数预测序列, pi表示模型对三 元组 的第i个预测分数。 得到每个模型的三元组分数预测序列Si后, 再对每个三元组的分数预测 序列Ti进行排序, 因为三元组分数预测越小越好, 所以按照分数从小到大的顺序排序, 得到 新的三元组分数预测序列, Sinew: {T1: {p1, p2, p3, p4, p5…pi}, T2: {p1, p2, p3, p4, p5…pi}…Ti: {p1, p2, p3, p4, p5…pi}}, 其p1为三元组最小的预测分数。 最后, 根据得到已经排序的三元组 分数预测序列Sinew, 对Sinew中的每个三元组预测分数序列Ti进行筛选过滤, 选出Ti中三元组 预测分数在前1000名的预测结果, 得到新的三 元组分数预测序列: Sifilter: {T1new: {p1, p2, p3, p4, p5…p1000}, T2new: {p1, p2, p3, p4, p5…p1000}…Tinew: {p1, p2, p3, p4, p5…p1000}} 4)评估指标计算。 给定每个模型对知识图谱G中三元组经过排序过滤后的分数预测序 列Sifilter, 利用RBO相似性度量每个三元组在每个模型的分数预测序列, 具体操作为从两个 模型分数预测序列Sifilter, Sjfilter中提取三元组Ti的预测序列Tiinew: {p1, p2, p3, p4, p5…p1000} 和Tijnew: {p1, p2, p3, p4, p5…p1000}, Tijnew代表第i个三元组在第j个模型中的预测分数序列的权 利 要 求 书 1/2 页 2 CN 114579753 A 2前1000名。 序列相似性Ni=RBO(Tiinew, Tijnew, p), p为RBO算法的自定 义参数, 当每个模型关于 三元组Ti的预测序列都两两相似性计算后, 得到相似性度量的指标序列M: {N1, N2, N3, N4… Nn}, 长度为n=i(i ‑1)/2, i为模型的数量。 计算出指标序列后, 再计算相似性度量指标平均 数: 记录相似性指标Ni<N^的指标对应的两个模型, 统计每个模型出现的次 数, 最后剔除统计出现次数最多的模型对应的三元组分数预测序列Tijnew, 其预测结果与其 他模型预测结果相差较大。 最后, 将剔除后第i个三元组剩余的预测序列{Ti1new, Ti2new… Ti(j‑1)new, Ti(j+1)new…}, 重新投票合并成新最终预测序列, 投票规则为: 1: 出现次数最多的预 测分数三元组优先; 2: 当出现次数相同时, 排名靠前的优先。 得到三元组的最终预测序列 TiEnd, 对其他三元组进行 同样的操作, 最后得到, 所有知识图谱G中所有三元组对应的分数 预测序列组Score: {T1End, T2End, T3End, T4End…TiEnd}, 最后根据预测所有三元组分数序列Score 计算知识图谱质量相关指标MR, Hit@10 。 2.根据权利要求1所述的基于差分测试和嵌入模型的知识图谱评估方法, 其特征在于, 在步骤1)中, 利用变异 算子对数据进 行变异, 给定三元 组数据集合和变异 算子集合, 对每一 个三元组执行集合中每一个代表知识图谱典型错误的变异算子, 通过过滤和标注, 从而得 到有标注的变异训练集。 3.根据权利要求1所述的基于差分测试和嵌入模型的知识图谱评估方法, 其特征在于, 在步骤2)中, 使用带有标注的变异训练集对嵌入模型进行重训练。 嵌入模型需要在计算损 失函数时判别变异数据的标签True/False, 并进行多个周期的训练最 终得到优化后的对知 识图谱典型错 误敏感的嵌入 模型。 4.根据权利要求1所述的基于差分测试和嵌入模型的知识图谱评估方法, 其特征在于, 在步骤3)中, 进行差分测试, 给定被评估的知识图谱分别导入重训练优化后的知识图谱嵌 入模型, 生成每个模 型对每个三元组的预测分数序列, 再对每个序列进 行排序筛选, 从而得 到过滤后的三元组分数 预测序列。 5.根据权利要求1所述的基于差分测试和嵌入模型的知识图谱评估方法, 其特征在于, 在步骤4)中, 进 行指标计算, 给定过滤后的三元组分数预测序列, 分别对三元 组在每个模型 中的预测序列, 两两进行RBO相似性度量, 剔除分数预测序列与其他序列相差较大的序列, 再通过投票融合剩余分数预测序列的结果得到最

.PDF文档 专利 一种基于差分测试和嵌入模型的知识图谱评估方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于差分测试和嵌入模型的知识图谱评估方法 第 1 页 专利 一种基于差分测试和嵌入模型的知识图谱评估方法 第 2 页 专利 一种基于差分测试和嵌入模型的知识图谱评估方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。