专利一种基于动作采样的强化学习知识图谱推理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210244316.X (22)申请日 2022.03.14 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人贾海涛　乔磊崖　李家伟　李嘉豪　林萧　曾靓　 (51)Int.Cl. G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/253(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01) (54)发明名称一种基于动作采样的强化学习知识图谱推理方法 (57)摘要本发明公开了一种基于动作采样的强化学习知识图谱推理方法。该发明针对传统知识图谱强化学习推理算法中表征能力不足、无效冗余动作选取以及无记忆组件问题，根据表示学习方法在数据集上的原始事实预测评分，针对性地选取适应性更强的表示学习方法来表示强化学习环境以增强算法表征能力；设计动作采样器以减少智能体在游走过程中的无效冗余动作选择；以 LSTM为记忆组件，将历史信息进行编码以增加模型精度，这使得本算法可以在摆脱预训练的情况下取得优于基于路径的推理算法的效果。该方法将智能体在环境中游走得到的路径映射到三层 LSTM策略网络，通过动作采样促进智能体选择更有意义的路径，最终实现较为准确的实体关系路径学习。权利要求书1页说明书6页附图5页 CN 114662693 A 2022.06.24 CN 114662693 A 1.一种基于动作采样的强化学习知识图谱推理算法，其包括以下步骤：步骤1：在数据处理层对不同数据集选择最优的表示方法，并将数据中的三元组与推理关系表示为特征向量；步骤2：在预训练层使用随机广度优先策略(BFS)与专家数据对模型进行预训练，以提高模型的收敛性；步骤3：该步骤是专利核心内容：添加奖励函数再训练，并在RL模型中加入动作采样器和LSTM记忆组件；本发明采用一个三层的LSTM网络对历史搜索信息进行编码，如式所示； ht＝LSTM(ht‑1,wt),当t＝0时ht‑1＝0 一个三层的LSTM接受此时的实体嵌入向量， LSTM在循环体结构中增加了三个门限模块，在有记忆功能的同时解决了传统神经网略可能会存在的梯度消失与爆炸问题；编码完成后，此时RL的状态表示为st＝(ht， wt)，将此状态输入策略网络，通过两层ReLU与一层 Softmax组成的全连接神经网络进行训练，得到动作概率矩阵，智能体通过策略网络反馈的动作概率矩阵选取下一个动作，不断扩展路径；下式为策略网络的输出动作概率矩阵； πθ(at|st)＝σ(At×W2ReLU(W|[ht； st])) 为了使智能体在动作选择时避免去过多的选择无效路径，本章在智能体选择动作的时候添加动作采样器：每当智能体的随机游走出现selfdie的情况时，记录终止节点ed与此次选择的动作(关系)rd，将其添加到动作采样器的记忆中，记为无效动作，表示为(ed， rd)的实体关系对；在之后的游走中，假设智能体到达et，若et存在于动作采样器的实体记忆集合中，则在选择下一个动作时，动作采样器会从动作空间中剔除rd，此时智能体选择的下一个动作必不是之前已经出现过的无效动作，从而鼓励智能体有更大的几率去进行一次完整的游走，以探寻更有信息的路径集合，同时还能节约算力；步骤4：输出层使用策略网络进行输出。 2.根如权利要求1所述方法，其特征在于，步骤1针对不同表示学习方法在特定数据集上的表征能力强弱，选择效果更好的表示学习方法，从底层提高强化学习环境的表征能力。 3.根据权利要求1所述的方法，其特征在于，步骤3添加LSTM记忆组件，将历史信息进行编码，帮助智能体更有效的寻找推理路径，算法可以摆脱预训练，取得精度优于基于路径与基于嵌入的推理方法；在进行预训练的情况下，本发明有效提高了结果精度，在NELL ‑995 上，本实验的MAP指标相比较与TransE、 TransR、 PRA和DeepPath分别增长了7.8％， 2.7％， 13.9％， 1.9％；在FB15K ‑237上，本实验的MAP指标相比较与Tran sE、 TransR、 PRA和DeepPat h 分别增长了8.1％， 7.4％， 7.2％， 4.1％；对于事实预测任务，在NELL ‑995数据集中，本实验的MAP值比TransE、 Tran sR、 TransD、 Tran sH和DeepPath分别增长了14.4％， 13.8％， 12.1 ％， 11.4％， 3.4％；在FB15 K‑237数据集中，本实验的MAP值比Tran sE、 TransR、 TransD、 TransH和 DeepPath分别增长了4.2％， 1.0％， 1.7％， 1.6％， 0.8％。 4.根据权利要求1所述的方法，其特征在于，步骤3设置动作采样器，减少智能体在游走过程中的无效冗余动作选择，促进智能体选择更多有意义的路径，有效节省了时间开销：在 NELL‑995数据集上，不使用动作采样器时每轮迭代时间为14.25433秒，动作采样器可使实验的时间开销减少7.42％；在FB15K ‑237数据集上，不使用动作采样器时每轮迭代时间为 19.23654秒，动作采样器可使实验的时间开销减少6.34％。权　利　要　求　书 1/1 页 2 CN 114662693 A 2一种基于动作采样的强化学习知识图谱推理方法技术领域 [0001]本发明属于自然语言处理领域。背景技术 [0002]近年来，深度学习技术在各种分类和识别问题上取得了许多最先进的结果。然而，复杂的自然语言处理问题通常需要多个相互关联的决策，使深度学习模型具有学习推理的能力仍然是一个具有挑战性的问题。为了处理没有明显答案的复杂查询，智能机器必须能够利用现有资源进行推理，并学会推断未知答案。 [0003]随着知识图谱推理技术的不断发展，强化学习被证明在知识推理任务中得到较优结果。 EMNLP2017发布的DeepPath首次将强化学习引入到知识图谱的推理当中，它对知识图谱进行简单的采样，放入策略网络中进行训练。其主要任务为给定一个知识图谱中的实体对(entity1， entity2)，使模型推理从头实体到尾实体的路径；其子任务包括链接预测(Link Predicti on)与事实预测(Fact Predicti on)。然而， DeepPath存下下列问题： [0004](1)采用TransE简单的表示环境中的状态，表征能力不足； [0005](2)随机的动作采样模式可能会导致智能体采取很多无效冗余的动作，耗费计算成本，且会产生虚假路径问题； [0006](3)将状态向量直接输入策略网络，丧失了原本状态之间丰富的关联性与语义信息。 [0007]针对以上问题，本发明提出一种基于动作采样与LSTM记忆组件的强化学习知识图谱推理方法(Reinfor cement Learning Knowledge Graph Reasoning Met hod based on Action Sampling， RLKGR ‑ASM)，针对已有的RL模型，分析其不合理与存在问题之处，添加动作采样器并将LSTM作为记忆组件来改进优化基于强化学习的知识图谱推理模型。发明内容 [0008]本发明提出一种基于动作采样的强化学习知识图谱推理方法，目的在于解决现有强化学习推理方法表征能力不足、无效动作选择、无记忆组件等问题。该方法步骤如下： [0009](1)在数据处理层对不同数据集选择最优的表示方法，并将数据中的三元组与推理关系表示为特征向量。 [0010](2)在预训练层使用随机广度优先策略(BFS)与专家数据对模型进行预训练，以提高模型的收敛性。 [0011](3)二次训练层添加奖励函数再训练，并在RL模型中加入动作采样器和 LSTM记忆组件。 [0012](4)输出层使用策略网络进行输出。附图说明 [0013]附图1 RLKGR‑ASM算法流程图说　明　书 1/6 页 3 CN 114662693 A 3

专利 一种基于动作采样的强化学习知识图谱推理方法

专利一种基于动作采样的强化学习知识图谱推理方法