专利基于对比学习的知识图谱嵌入模型训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210388163.6 (22)申请日 2022.04.14 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路２号 (72)发明人刘宇　王恺　单世民　赵哲焕　徐秀娟　 (74)专利代理机构辽宁鸿文知识产权代理有限公司 21102 专利代理师王海波 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/02(2006.01) (54)发明名称基于对比学习的知识图谱嵌入模型训练方法 (57)摘要本发明属于知识表示技术领域，提供一种基于对比学习的知识图谱嵌入模型训练方法。通过训练输入三元组得分最小化，实现正样本特征对齐；通过对一部分采样三元组进行全负样本训练，实现全局实体向量分布均匀性；通过关系特异性非线性函数，实现难易样本权重分配。该训练框架可以为实体向量参数提供稳定的训练目标，帮助知识图谱嵌入模型专注于困难实例并加快收敛速度。在大规模知识图谱构建和维护工程中，本发明大幅度降低知识图谱嵌入模型的训练成本，有效提高知识图谱表示的更新效率，使得知识图谱可以保持高质量知识表征。权利要求书1页说明书4页附图1页 CN 114741530 A 2022.07.12 CN 114741530 A 1.一种基于对比学习的知识图谱嵌入模型训练方法，其特征在于，首先对实体关系向量参数进行随机初始化，然后用训练集中的三元组，构造链接预测任务样本，即包含一个实体和一个关系的查询项，和对应的目标实体；然后从样本集合中随机抽取一些任务样本，通过训练知识图谱嵌入模型让正确三元组得分尽可能高，同时降低抽样任务样本构成的负样本三元组分数，来学习实体关系的向量表示；给定模型的得分函数f(e， r， ep)，每次模型训练过程首先从训练集中随机抽取一定数量的样本，作为一个批数据T；是从批数据T中划分出一个样本子集；对比学习损失函数包含两个模块，分别实现对比学习中对齐性和均匀性这两个关键特性，具体定义如下：该损失函数第一个模块是通过最大化所有正三元组的分数来实现对齐性属性；第二个模块则是最小化每个采样查询向量与图谱中所有实体向量的相似性，从而实现全局向量分布均匀性；这使得绝大部分向量参数在单次训练过程中保持相同的训练目标，从而保证计算梯度的稳定性，加快模型收敛。 2.根据权利要求1所述的基于对比学习的知识图谱嵌入模型训练方法，其特征在于，在模型得分函数基础上采用了基于难度感知的样本权重分配策略，具体公式如下： fha(e， r， ep)＝‑h(cr·f(e， r， ep))，其中， cr是关系特异的可训练放缩参数，用于为不同关系的预测得分分配不同的取值范围；难度感知激活函数h( ·)对模型输出的三元组得分进行放大；根据原始得分的大小不同，对简单样本的得分放大幅度高，对困难样本的放大幅度低；从而在损失函数中，降低对简单样本的惩罚力度，增加对难以区分的困难样本的参数调整；为了实现上述难度感知能力，难度感知激活函数需要在三元组得分取值范围内导数大于1且随得分增大而单调递增；采用的难度感知激活函数如下： h(x)＝mi n(x·ex， γ)，其中， min()表示取最小值， γ为超参数，用以限制放大后得分的上界。 3.根据权利要求1或2所述的基于对比学习的知识图谱嵌入模型训练方法，其特征在于，给定基于查询采样的对比学习损失函数和基于难度感知的样本权重分配策略之后，训练方法的最终损失函数定义如下：该损失函数在对齐损失部分对正样本放大得分进行平方处理；正样本将比负样本获得更严格的正则化；和负样本难以区分的正样本将获得比邻近负样本更大的训练梯度，并且 L2距离接近于零的已经明确识别出的正样本对损失函数的贡献更小，从而进一步加快模型训练的收敛速度。权　利　要　求　书 1/1 页 2 CN 114741530 A 2基于对比学习的知识图谱嵌入模型训练方法技术领域 [0001]本发明属于知识图谱嵌入模型训练技术领域，适用于通用领域知识图谱的知识图谱嵌入模型训练过程，特别涉及在大规模知识图谱迭代更新过程中知识图谱嵌入模型的高效训练。背景技术 [0002]知识图谱表示学习旨在将知识图谱中实体和关系投影到连续向量空间，通过训练知识图谱嵌入模型，学习每个实体关系的低维稠密向量，进而自动预测图谱三元组中任一缺失成分，实现知识图谱补全和知识图谱推理等核心任务。知识图谱表示学习的成功取决于丰富的图谱数据和强大的表征模型，同时高效的训练策略也是必不可少的。知识图谱表示学习的训练策略旨在从图谱数据中收集合适的训练样本，定义有效的训练目标和损失函数，监督知识图谱嵌入模型的参数训练，使得模型能够充分编码图谱语义信息。 [0003]在知识图谱嵌入模型训练阶段，常用的是基于负样本采样的训练策略。由于知识图谱中的所有实体关系随机组合产生的潜在三元组数量非常庞大，将所有可能的三元组全部纳入模型训练是不现实的。基于负样本采样的方法能够有效减少训练过程的样本数量，通过随机构造负样本让模型学习到正确三元组的特征信息。然而，基于负样本采样的训练策略在模型训练的每一轮中会随机生成负样本数据。这使得模型参数的训练梯度不稳定，实体向量在向量空间中的位置不断波动，从而影响模型的收敛速度，延长训练时间。发明内容 [0004]为了克服上述现有技术的缺点，本发明提出了一种基于对比学习的训练策略和损失函数。与以往从全体实体集合中随机抽取一些实体作为负样本的方法不同，本发明中的训练损失函数通过训练输入三元组得分最小化，实现正样本特征对齐；通过对一部分采样三元组进行全负样本训练，实现全局实体向量分布均匀性；通过关系特异性非线性函数，实现难易样本权重分配。该训练方法可以为实体向量参数提供稳定的训练目标，可以帮助知识图谱嵌入模型专注于困难实例并加快收敛速度。 [0005]本发明采用的技术方案是： [0006](1)基于查询损失的对比学习损失函数。 [0007]本发明深入剖析了知识表示学习和自监督对比学习之间的关联。针对现有基于负采样损失函数训练周期长，训练梯度不稳定的问题，本文设计了一种基于查询采样的新损失函数，它可以更高效的实现两个重要的训练目标，正样本特征对齐和实体分布均匀性。 [0008](2)基于难度感知的样本权重分配策略。 [0009]本发明分析了低维双曲线模型中的非线性函数的难度感知能力，由此提出了一种轻量化的难度感知激活机制，用于样本权重分配。该策略的作用类似于对比学习中的温度软化技巧，可以根据当前样本评分进行自动权重调整，帮助知识图谱嵌入模型专注于困难训练样本并加快收敛速度。说　明　书 1/4 页 3 CN 114741530 A 3

专利 基于对比学习的知识图谱嵌入模型训练方法

专利基于对比学习的知识图谱嵌入模型训练方法