全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210244316.X (22)申请日 2022.03.14 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 贾海涛 乔磊崖 李家伟 李嘉豪  林萧 曾靓  (51)Int.Cl. G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/253(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01) (54)发明名称 一种基于动作采样的强化学习知识图谱推 理方法 (57)摘要 本发明公开了一种基于动作采样的强化学 习知识图谱推理方法。 该发明针对传统知识图谱 强化学习推理算法中表征能力不足、 无效冗余动 作选取以及无记忆组件问题, 根据表 示学习方法 在数据集上的原始事实预测评分, 针对性地选取 适应性更强的表示学习方法来表示强化学习环 境以增强算法表征能力; 设计动作采样器以减少 智能体在游走过程中的无效冗余动作选择; 以 LSTM为记忆组件, 将历史信息进行编码以增加模 型精度, 这使得本算法可以在摆脱预训练的情况 下取得优于基于路径的推理算法的效果。 该方法 将智能体在环境中游走得到的路径映射到三层 LSTM策略网络, 通过动作采样促进智能体选择更 有意义的路径, 最终实现较为准确的实体关系路 径学习。 权利要求书1页 说明书6页 附图5页 CN 114662693 A 2022.06.24 CN 114662693 A 1.一种基于动作采样的强化学习知识图谱推理算法, 其包括以下步骤: 步骤1: 在数据处理层对不同数据集选择最优的表示方法, 并将数据中的三元组与推理 关系表示 为特征向量; 步骤2: 在预训练层使用随机广度优先策略(BFS)与专家数据对模型进行预训练, 以提 高模型的收敛性; 步骤3: 该步骤是专利核心内容: 添加奖励函数再训练, 并在RL模型中加入动作采样器 和LSTM记 忆组件; 本发明采用一个三层的LSTM网络对历史搜索信息进行编码, 如式所示; ht=LSTM(ht‑1,wt),当t=0时ht‑1=0 一个三层的LSTM接受此时的实体嵌入向量, LSTM在循环体结构中增加了三个门限模 块, 在有记忆功能的同时解决了传统神经网略可能会存在的梯度消失与爆炸 问题; 编码完 成后, 此时RL的状态表示为st=(ht, wt), 将此状态输入策略网络, 通过两层ReLU与一层 Softmax组成的全连接神经网络进行训练, 得到动作概率矩阵, 智能体通过策略网络 反馈的 动作概率矩阵选取 下一个动作, 不断扩展路径; 下式为策略网络的输出动作概 率矩阵; πθ(at|st)=σ(At×W2ReLU(W|[ht; st])) 为了使智能体在动作选择时避 免去过多的选择无效路径, 本章在智能体选择动作的时 候添加动作采样器: 每当智能体的随机游走出现selfdie的情 况时, 记录终止节点ed与此次 选择的动作(关系)rd, 将其添加到动作采样 器的记忆中, 记 为无效动作, 表示为(ed, rd)的实 体关系对; 在之后的游走中, 假设智能体到达et, 若et存在于动 作采样器的实体记忆集合中, 则在选择下一个动作时, 动作采样器会从动作空间中剔除rd, 此时智能体选择的下一个动 作必不是之前已经出现过的无效动作, 从而鼓励智能体有 更大的几率去进 行一次完整的游 走, 以探寻更有信息的路径集 合, 同时还能节约算力; 步骤4: 输出层使用策略网络进行输出。 2.根如权利要求1所述方法, 其特征在于, 步骤1针对不同表示学习方法在特定数据集 上的表征能力强弱, 选择效果更好的表示学习方法, 从底层提高强化学习环境的表征能力。 3.根据权利 要求1所述的方法, 其特征在于, 步骤3添加LSTM记忆 组件, 将历史信息进行 编码, 帮助智能体更有效的寻找推理路径, 算法可以摆脱预训练, 取得精度优于基于 路径与 基于嵌入的推理方法; 在进行预训练的情况下, 本发明有效提高了结果精度, 在NELL ‑995 上, 本实验的MAP指标相比较与TransE、 TransR、 PRA和DeepPath分别增长了7.8%, 2.7%, 13.9%, 1.9%; 在FB15K ‑237上, 本实验的MAP指标相比较与Tran sE、 TransR、 PRA和DeepPat h 分别增长了8.1%, 7.4%, 7.2%, 4.1%; 对于事实预测任务, 在NELL ‑995数据集中, 本实验 的MAP值比TransE、 Tran sR、 TransD、 Tran sH和DeepPath分别增长了14.4%, 13.8%, 12.1 %, 11.4%, 3.4%; 在FB15 K‑237数据集中, 本实验的MAP值比Tran sE、 TransR、 TransD、 TransH和 DeepPath分别增长 了4.2%, 1.0%, 1.7%, 1.6%, 0.8%。 4.根据权利要求1所述的方法, 其特征在于, 步骤3设置动作采样器, 减少智能体在游走 过程中的无效冗余动作选择, 促进智能体选择更多有意义的路径, 有效节省了时间开销: 在 NELL‑995数据集上, 不使用动作采样器时每轮迭代时间为14.25433秒, 动作采样器可使实 验的时间开销减少7.42%; 在FB15K ‑237数据集上, 不使用动作采样器时每轮迭代时间为 19.23654秒, 动作采样器可使实验的时间开销减少6.34%。权 利 要 求 书 1/1 页 2 CN 114662693 A 2一种基于动作采 样的强化学习知识图谱推 理方法 技术领域 [0001]本发明属于自然语言处 理领域。 背景技术 [0002]近年来, 深度学习技术在各种分类和识别问题上取得了许多最先进的结果。  然 而, 复杂的自然语言处理问题通常需要多个相互关联的决策, 使深度学习模型  具有学习推 理的能力仍然 是一个具有挑战性的问题。 为了处理没有明显答案的复  杂查询, 智能机器必 须能够利用现有资源进行推理, 并学会推断未知答案 。 [0003]随着知识图谱推理技术的不断发展, 强化学习被证明在知识推理任务中得到  较 优结果。 EMNLP2017发布的DeepPath首次将强化学习引入到知识图谱的推理  当中, 它对知 识图谱进 行简单的采样, 放入策略网络中进 行训练。 其主要任务为  给定一个知识图谱中的 实体对(entity1, entity2), 使模型推理从头实体到尾实体  的路径; 其子任务包括链接预 测(Link Predicti on)与事实预测(Fact  Predicti on)。 然而, DeepPath存下 下列问题: [0004](1)采用TransE简单的表示环境中的状态, 表征能力不足; [0005](2)随机的动作 采样模式可能会导致智能体采取很多无 效冗余的动作, 耗  费计算 成本, 且会产生虚假路径问题; [0006](3)将状态向量直接输入策略网络, 丧失了原本状态之间丰富的关联性与  语义信 息。 [0007]针对以上问题, 本发明提出一种基于动作采样与LSTM记忆组件的强化学  习知识 图谱推理方法(Reinfor cement Learning  Knowledge  Graph Reasoning Met hod based on  Action Sampling, RLKGR ‑ASM), 针对已有的RL模型, 分析其  不合理与存在问题之处, 添加 动作采样器并将LSTM作为记 忆组件来改进优化  基于强化学习的知识图谱推理模型。 发明内容 [0008]本发明提出一种基于动作采样的强化学习知识图谱推理方法, 目的在于解决  现 有强化学习推理方法表征能力不足、 无效动作选择、 无记 忆组件等问题。 该 方 法步骤如下: [0009](1)在数据处理层对不同数据集选择最优的表示方法, 并将数据中的三元  组与推 理关系表示 为特征向量。 [0010](2)在预训练层使用随机广度优先策略(BFS)与专家数据对模型进行预  训练, 以 提高模型的收敛性。 [0011](3)二次训练层添加奖励函数再训练, 并在RL模型中加入动作采样器和  LSTM记忆 组件。 [0012](4)输出层使用策略网络进行输出。 附图说明 [0013]附图1 RLKGR‑ASM算法流 程图说 明 书 1/6 页 3 CN 114662693 A 3

.PDF文档 专利 一种基于动作采样的强化学习知识图谱推理方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于动作采样的强化学习知识图谱推理方法 第 1 页 专利 一种基于动作采样的强化学习知识图谱推理方法 第 2 页 专利 一种基于动作采样的强化学习知识图谱推理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。