专利一种基于知识图谱和强化学习的交互式推荐方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210017981.5 (22)申请日 2022.01.07 (71)申请人东北大学地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人赵羽茜　张明卫　 (74)专利代理机构沈阳东大知识产权代理有限公司 21109 专利代理师李梁 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/9535(2019.01) (54)发明名称一种基于知识图谱和强化学习的交互式推荐方法 (57)摘要本发明提供一种基于知识图谱和强化学习的交互式推荐方法，涉及交互式推荐技术领域。从建模整个交互式推荐过程角度出发，结合图注意力机制，语义相似性、结构相似性，加入好奇心机制，有效建模推荐过程并提高推荐性能指标，构建训练稳定且方差小的模型。克服现有模型中物品相关信息少，未参考邻居信息以及训练过程的候选集巨大造成的算法效率低下，同时提出了新的奖励设定机制。采用了双网络结构训练，加入了防止过拟合的优化设计，并设置了引入好奇心机制的奖励模拟器，从评分，知识图谱中节点距离，好奇心机制三个维度给出奖励的准则，并加入了减少策略方差的机制，模型训练稳定且效率显著提升。权利要求书4页说明书11页附图4页 CN 115186097 A 2022.10.14 CN 115186097 A 1.一种基于知识图谱和强化学习的交互式推荐方法，其特征在于，包括：步骤1：将推荐数据集中的物品与知识库Freebase中的实体进行对应，构建得到特定领域知识图谱，根据构建的知识图谱，对知识图谱进行预嵌入得到知识图谱中实体和关系的低维表示，即实体映射到超平面的映射；步骤2：计算知识图谱中的实体节点与其一阶邻居实体节点之间的注意力系数，利用计算得到的注意力系数与步骤1得到的实体低维表示，以加权求和的计算方式得到传播了一阶邻居实体节点的中心实体低维表示；步骤3：对步骤1得到的实体低维表示与步骤2得到的传播了一阶邻居实体节点的中心实体低维表示进行集成，集成操作所得到的实体节点表示将作为下一轮实体低维表示，重复步骤2以及本步骤操作，直至实体节点嵌入表示收敛；步骤4：从步骤3得到的实体节点表示中取出用户有过正向交互过的物品表示，输入至 GRU模型得到用户即时偏好向量，即状态；步骤5：以用户有过正向交互的物品为中心，选取知识图谱的k跳邻居实体节点作为候选空间集合，即动作空间；步骤6：将步骤4得到的状态和步骤5得到的动作空间输入至策略网络，并得到动作向量；其中所述策略网略是由多层感知机构成的，其输出待推荐的动作高维向量表示；步骤7：将步骤6输出的动作向量输入到奖励模拟器得到奖励，若奖励大于预设阈值，则将此动作向量加入至此用户的有过交互的物品中，并重新利用步骤4的计算过程得到下一步状态；若奖励小于等于预设阈值，则下一步状态保持和上一步状态不变；步骤8：将步骤4得到的状态，步骤6得到的动作向量，步骤7得到的奖励，步骤4得到的下一步状态存储在经验池中，基于强化学习中的PPO2算法构建推荐智能体模型，智能体以试错的方式得到训练数据并获得最优的行为策略，以交互式的形式利用用户当下即时反馈调整推荐策略。 2.根据权利要求1所述的一种基于知识图谱和强化学习的交互式推荐方法，其特征在于，步骤1中所述实体映射到超平面后的映射公式为：其中， h代表知识图谱中头实体节点表示，代表映射后的头实体节点表示； tail代表尾实体节点表示，代表映射后的尾实体节点表示；每个关系r都有一个是与超平面表示相关的矩阵参数Wr。 3.根据权利要求1所述的一种基于知识图谱和强化学习的交互式推荐方法，其特征在于，步骤2中所述计算注意力系数公式为： gnj＝LeakyReLU(W in||Wij) (3) 其中， in和ij为节点n和节点j的向量表示； gnj为节点j对于节点n的注意力系数； LeakyReLU为非线性激活函数； W为权值矩阵； ||为两个向量的拼接；使用softmax函数对节点n的所有一阶邻居实体节点的注意力系数进行规范化，公式如下：权　利　要　求　书 1/4 页 2 CN 115186097 A 2其中， αnj为节点j对于中心节点n的进行了规范化后的注意力系数； N为对于节点n的所有一阶邻居实体节点集合； ik为节点k的向量表示；所述以加权求和的方式得到传播了一阶邻居实体节点的中心实体低维表示i ′n的计算公式如下：其中， σ 是一个非线性函数，为一种单层前向神经网络。 4.根据权利要求1所述的一种基于知识图谱和强化学习的交互式推荐方法，其特征在于，步骤3中所述集成的公式如下： en＝fBi‑Interacti on(in， i′n)＝LeakyReLU(W(in+i′n))+LeakyReLU(W(in⊙i′n)) (6) 其中， fBi‑Interactton为使用Bi ‑Interaction集成器的集成函数，集成器还可以考虑使用 GCN集成器或Gr aphSage集成器； ⊙为Hadamard积； W为权值矩阵； LeakyReLU为激活函数； in 为节点n的向量表示， i ′n为公式(5)的输出结果，即传播了一阶邻居实体节点的中心实体低维表示i′n；上一层与下一层的聚集函数，具体计算方式如下：其中l为第l轮集成， l ‑1为第l‑1轮，即第l轮的上一轮；指l‑1轮节点n的表示，指 l‑1轮以节点n为中心的聚集一阶邻居节点的信息和；采用了Bi ‑Interaction集成器得到是集成了第l ‑1轮时实体节点信息与聚集了一阶邻居实体节点信息的第l轮节点n的表示。 5.根据权利要求1所述的一种基于知识图谱和强化学习的交互式推荐方法，其特征在于，所述步骤4具体包括以下步骤：步骤4.1：针对交互式推荐的建模过程进行定义；给定一组用户U＝{u1， u2， u3， ......}，一组物品I＝{i1， i2， i3， ......}以及步骤1构建的知识图谱先初始化随机策略π，当用户，即环境，和推荐策略，即智能体第t次交互时，在用户特定偏好St下智能体向用户ui∈U推荐动作 At，此动作是基于随机策略π选择的，随之获得用户的反馈fi∈F，包括点击，收藏，忽略，评分，得到的反馈用来改进随机策略π，用户偏好状态也根据状态转移函数由St变为St+1；步骤4.2：构建交互式推荐智能体，定义MD P元组；给定过去交互的观察{u， i1， f1， ...， it‑1， ft‑1}，推荐策略被建模为一个条件分布，用来表示在t次交互时，推荐物品it的概率；在用户和推荐策略之间的一系列交互就会产生一条轨迹ξ＝{S0， i0， r0， ...， St， it， rt， ...， ST}，获得向用户推荐物品以得到长期累计奖励最大的推荐策略π*，定义如下：其中，是策略π下的期望折扣奖励；状态St由用户在时间t之前感兴趣权　利　要　求　书 2/4 页 3 CN 115186097 A 3

专利 一种基于知识图谱和强化学习的交互式推荐方法

专利一种基于知识图谱和强化学习的交互式推荐方法