全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210388163.6 (22)申请日 2022.04.14 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2 号 (72)发明人 刘宇 王恺 单世民 赵哲焕  徐秀娟  (74)专利代理 机构 辽宁鸿文知识产权代理有限 公司 21102 专利代理师 王海波 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/02(2006.01) (54)发明名称 基于对比学习的知识图谱嵌入模型训练方 法 (57)摘要 本发明属于知识表 示技术领域, 提供一种基 于对比学习的知识图谱嵌入模型训练方法。 通过 训练输入三元组得分最小化, 实现正样本特征对 齐; 通过对一部分采样三元组进行全负样本训 练, 实现全局实体向量分布均匀性; 通过关系特 异性非线性函数, 实现难易样本权重分配。 该训 练框架可以为实体向量参数提供稳定的训练目 标, 帮助知识图谱嵌入模型专注于困难实例并加 快收敛速度。 在大规模知识图谱构建和维护工程 中, 本发明大幅度降低知识图谱嵌入模型的训练 成本, 有效提高知识图谱表示的更新效率, 使得 知识图谱可以保持高质量知识 表征。 权利要求书1页 说明书4页 附图1页 CN 114741530 A 2022.07.12 CN 114741530 A 1.一种基于对比学习的知识图谱嵌入模型训练方法, 其特征在于, 首先对实体关系向 量参数进 行随机初始 化, 然后用训练集中的三元 组, 构造链接预测任务样本, 即包含一个实 体和一个关系的查询项, 和对应的目标实体; 然后从样本集合中随机抽取一些任务样本, 通 过训练知识图谱嵌入模型让正确三元组得分尽可能高, 同时降低抽样任务样本构成的负样 本三元组分数, 来学习实体关系的向量表示; 给定模型的得分函数f(e, r, ep), 每次模型训练过程首先从训练集中随机抽取一定数量 的样本, 作为一个批数据T; 是从批数据T中划分出一个样 本子集; 对比学习损失函数包含 两个模块, 分别实现对比学习中对齐性和均匀性 这两个关键特性, 具体定义如下: 该损失函数第 一个模块是通过最大化所有正三元组 的分数来实现对齐性属性; 第 二个 模块则是最小化每个采样查询向量与图谱中所有实体向量的相似性, 从而实现全局向量分 布均匀性; 这使得绝大部分向量参数在单次训练过程中保持相同的训练目标, 从而保证计 算梯度的稳定性, 加快模型收敛。 2.根据权利要求1所述的基于对比学习的知识图谱嵌入模型训练方法, 其特征在于, 在 模型得分函数基础上采用了基于难度感知的样本 权重分配策略, 具体公式如下: fha(e, r, ep)=‑h(cr·f(e, r, ep)), 其中, cr是关系特异的可训练放缩 参数, 用于为不同关系的预测得分分配不同的取值范 围; 难度感知激活函数h( ·)对模型输出的三元组得分进行放大; 根据原始得分的大小不 同, 对简单样本的得分放大幅度高, 对困难样本的放大幅度低; 从而在损失函数中, 降低对 简单样本的惩罚力度, 增 加对难以区分的困难样本的参数调整; 为了实现上述难度感知能力, 难度感知激活函数需要在三元组得分取值范围内导数大 于1且随得分增大而单调递增; 采用的难度感知激活函数如下: h(x)=mi n(x·ex, γ), 其中, min()表示取最小值, γ为超参数, 用以限制放大后得分的上界。 3.根据权利要求1或2所述的基于对比学习的知识图谱嵌入模型训练方法, 其特征在 于, 给定基于查询采样的对比学习损失函数和基于难度感知的样本权重分配策略之后, 训 练方法的最终损失函数定义如下: 该损失函数在对齐损失部分对正样本放大得分进行平方处理; 正样本将比负样本获得 更严格的正则化; 和负样本难以区分的正样本将获得比邻近负样本更大 的训练梯度, 并且 L2距离接近于零的已经明确识别出的正样本对损失函数的贡献更小, 从而进一步加快模型 训练的收敛速度。权 利 要 求 书 1/1 页 2 CN 114741530 A 2基于对比学习的知识图谱 嵌入模型训练方 法 技术领域 [0001]本发明属于知识图谱 嵌入模型训练技术领域, 适用于通用领域知识图谱的知识图 谱嵌入模型训练过程, 特别涉及在大规模知识图谱迭代更新过程中知识图谱嵌入模型的高 效训练。 背景技术 [0002]知识图谱表示学习旨在将知识图谱中实体和关系投影到连续向量空间, 通过训练 知识图谱嵌入模型, 学习每个实体关系的低 维稠密向量, 进而自动预测图谱三元组中任一 缺失成分, 实现知识图谱补全和知识图谱推理等核心任务。 知识图谱表示学习的成功取决 于丰富的图谱数据和强大 的表征模型, 同时高效的训练策略也是必不可少的。 知识图谱表 示学习的训练策略 旨在从图谱数据中收集合适的训练样本, 定义有效的训练目标和损失函 数, 监督知识图谱嵌入 模型的参数训练, 使得模型能够充分编码图谱语义信息 。 [0003]在知识图谱嵌入模型训练阶段, 常用的是基于负样本采样的训练策略。 由于知识 图谱中的所有实体关系随机组合产生的潜在三元 组数量非常庞大, 将所有 可能的三元组全 部纳入模型训练是不现实的。 基于负样本采样的方法能够有效减少训练过程的样本数量, 通过随机构造负样本让模型学习到正确 三元组的特征信息。 然而, 基于负样本采样的训练 策略在模型训练的每一轮中会随机生成负样本数据。 这使得模型参数 的训练梯度不稳定, 实体向量在向量空间中的位置不断波动, 从而影响模型的收敛速度, 延长训练时间。 发明内容 [0004]为了克服上述现有技术的缺点, 本发明提出了一种基于对比学习的训练策略和损 失函数。 与以往从全体实体集合中随机抽取一些实体作为负样本的方法不同, 本发明中的 训练损失函数通过训练输入三元组得分最小化, 实现正样本特征对齐; 通过对一部分采样 三元组进 行全负样本训练, 实现全局实体向量分布均匀性; 通过关系特异性 非线性函数, 实 现难易样本权重分配。 该训练方法可以为实体向量参数提供稳定的训练目标, 可以帮助知 识图谱嵌入 模型专注于困难实例并加快收敛速度。 [0005]本发明采用的技 术方案是: [0006](1)基于查询 损失的对比学习损失函数。 [0007]本发明深入剖析了知识表示学习和自监督对比学习之间的关联。 针对现有基于负 采样损失函数训练周期长, 训练梯度不稳定的问题, 本文设计了一种基于查询采样的新损 失函数, 它可以更高效的实现两个重要的训练目标, 正样本特 征对齐和实体分布均匀性。 [0008](2)基于难度感知的样本 权重分配策略。 [0009]本发明分析了低维双曲线模型中的非线性函数的难度感知能力, 由此提出了一种 轻量化的难度感知激活机制, 用于样本权重分配。 该策略的作用类似于对比学习中的温度 软化技巧, 可以根据当前样本评分进行自动权重调整, 帮助知识图谱嵌入模型专注于困难 训练样本并加快收敛速度。说 明 书 1/4 页 3 CN 114741530 A 3

.PDF文档 专利 基于对比学习的知识图谱嵌入模型训练方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于对比学习的知识图谱嵌入模型训练方法 第 1 页 专利 基于对比学习的知识图谱嵌入模型训练方法 第 2 页 专利 基于对比学习的知识图谱嵌入模型训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。