全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210017981.5 (22)申请日 2022.01.07 (71)申请人 东北大学 地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人 赵羽茜 张明卫  (74)专利代理 机构 沈阳东大知识产权代理有限 公司 21109 专利代理师 李梁 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/9535(2019.01) (54)发明名称 一种基于知识图谱和强化学习的交互式推 荐方法 (57)摘要 本发明提供一种基于知识图谱和强化学习 的交互式推荐方法, 涉及交互式推荐技术领域。 从建模整个交互式推荐 过程角度出 发, 结合图注 意力机制, 语义相似性、 结构相似性, 加入好奇心 机制, 有效建模推荐过程并提高推荐性能指标, 构建训练稳定且 方差小的模型。 克服现有模型中 物品相关信息少, 未参考邻居信息以及训练过程 的候选集巨大造成的算法效率低下, 同时提出了 新的奖励设定机制。 采用了双网络结构训练, 加 入了防止过拟合的优化设计, 并设置了引入好奇 心机制的奖励模拟器, 从评分, 知识图谱中节点 距离, 好奇心机制三个维度给出奖励的准则, 并 加入了减少策略方差的机制, 模 型训练稳定且效 率显著提升 。 权利要求书4页 说明书11页 附图4页 CN 115186097 A 2022.10.14 CN 115186097 A 1.一种基于知识图谱和强化学习的交 互式推荐方法, 其特 征在于, 包括: 步骤1: 将推荐数据 集中的物品与知识库Freebase中的实体进行对应, 构 建得到特定领 域知识图谱, 根据构建的知识图谱, 对知识图谱进行预嵌入得到知识图谱中实体和关系的 低维表示, 即实体映射到超平面的映射; 步骤2: 计算知识图谱中的实体节点与其一阶邻居实体节点之间的注意力系数, 利用计 算得到的注意力系 数与步骤1得到的实体低 维表示, 以加权求和的计算方式得到传播了一 阶邻居实体节点的中心实体低维表示; 步骤3: 对步骤1得到的实体低维表示与步骤2得到的传播了一阶邻居实体节点的中心 实体低维表示进行集成, 集成操作所得到的实体节点表示将作为下一轮实体低 维表示, 重 复步骤2以及本步骤操作, 直至实体节点嵌入表示收敛; 步骤4: 从步骤3得到的实体节点表示中取出用户有过正向交互过的物品表示, 输入至 GRU模型得到用户即时偏好向量, 即状态; 步骤5: 以用户有过正向交互的物品为中心, 选取知识图谱的k跳邻居实体节点作为候 选空间集 合, 即动作空间; 步骤6: 将步骤4得到的状态和步骤5得到的动作空间输入至策略网络, 并得到动作向 量; 其中所述策略网略是由多层感知机构成的, 其输出待推荐的动作高维向量表示; 步骤7: 将步骤6输出的动作向量输入到奖励模拟器得到奖励, 若奖励大于预设阈值, 则 将此动作向量加入至此用户的有过交互的物品中, 并重新利用步骤4的计算过程得到下一 步状态; 若奖励小于等于预设阈值, 则下一 步状态保持和上一 步状态不变; 步骤8: 将步骤4得到的状态, 步骤6得到的动作向量, 步骤7得到的奖励, 步骤4得到的下 一步状态存储在经验池中, 基于强化学习中的PPO2算法构建推荐智能体模型, 智能体以试 错的方式得到训练数据并获得最优的行为策略, 以交互式的形式利用用户当下即时反馈调 整推荐策略。 2.根据权利要求1所述的一种基于知识图谱和强化学习的交互式推荐方法, 其特征在 于, 步骤1中所述实体映射到超平面后的映射公式为: 其中, h代表知识图谱中头实体节点表示, 代表映射后的头实体节点表示; tail代表 尾实体节点表示, 代表映射后的尾实体节点表示; 每个关系r都有一个是与 超平面表示 相关的矩阵参数Wr。 3.根据权利要求1所述的一种基于知识图谱和强化学习的交互式推荐方法, 其特征在 于, 步骤2中所述计算注意力系数公式为: gnj=LeakyReLU(W in||Wij)     (3) 其中, in和ij为节点n和节点j的向量表示; gnj为节点j对于节点n的注意力系数; LeakyReLU为非线性激活函数; W为权值矩阵; ||为两个向量的拼接; 使用softmax函数对节 点n的所有一阶邻居实体节点的注意力系数进行规范化, 公式如下: 权 利 要 求 书 1/4 页 2 CN 115186097 A 2其中, αnj为节点j对于中心节点n的进行了规范化后的注意力系数; N为对于节点n的所 有一阶邻居实体节点 集合; ik为节点k的向量表示; 所述以加 权求和的方式得到传播了一阶邻居实体节点的中心实体低维表示i ′n的计算 公式如下: 其中, σ 是一个非线性 函数, 为一种单层前向神经网络 。 4.根据权利要求1所述的一种基于知识图谱和强化学习的交互式推荐方法, 其特征在 于, 步骤3中所述 集成的公式如下: en=fBi‑Interacti on(in, i′n)=LeakyReLU(W(in+i′n))+LeakyReLU(W(in⊙i′n))  (6) 其中, fBi‑Interactton为使用Bi ‑Interaction集成器的集成函数, 集成器还可以考虑使用 GCN集成器或Gr aphSage集成器; ⊙为Hadamard积; W为权值矩阵; LeakyReLU为激活函数; in 为节点n的向量表示, i ′n为公式(5)的输出结果, 即传 播了一阶邻居 实体节点的中心实体低 维表示i′n; 上一层与下一层的聚集 函数, 具体 计算方式如下: 其中l为第l轮集成, l ‑1为第l‑1轮, 即第l轮的上一轮; 指l‑1轮节点n的表 示, 指 l‑1轮以节点n为中心的聚集一阶邻居节点的信息和; 采用了Bi ‑Interaction集成器得到 是集成了第l ‑1轮时实体节点信息与聚集了一阶邻居实体节点信息 的第l轮节点n的 表示。 5.根据权利要求1所述的一种基于知识图谱和强化学习的交互式推荐方法, 其特征在 于, 所述步骤4具体包括以下步骤: 步骤4.1: 针对交 互式推荐的建模过程进行定义; 给定一组用户U={u1, u2, u3, ......}, 一组物品I={i1, i2, i3, ......}以及步骤1构建 的知识图谱 先初始化随机策略π, 当用户, 即环境, 和推荐策略, 即智能体第t次交互时, 在 用户特定偏好St下智能体向用户ui∈U推荐动作 At, 此动作是基于随机策略π选择的, 随之获 得用户的反馈fi∈F, 包括点击, 收藏, 忽略, 评分, 得到的反馈用来改进随机策略π, 用户偏 好状态也 根据状态转移函数由St变为St+1; 步骤4.2: 构建交 互式推荐智能体, 定义MD P元组; 给定过去交互的观察{u, i1, f1, ..., it‑1, ft‑1}, 推荐策略被建模为一个条件分布, 用来 表示在t次交互时, 推荐物品it的概率; 在用户和推荐策略之间的一系列交互就会产生一条 轨迹ξ={S0, i0, r0, ..., St, it, rt, ..., ST}, 获得向用户推荐物品以得到长期累计奖励最大 的推荐策略π*, 定义如下: 其中, 是策略π下的期望折扣奖励; 状态St由用户在时间t之前感兴趣权 利 要 求 书 2/4 页 3 CN 115186097 A 3

.PDF文档 专利 一种基于知识图谱和强化学习的交互式推荐方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱和强化学习的交互式推荐方法 第 1 页 专利 一种基于知识图谱和强化学习的交互式推荐方法 第 2 页 专利 一种基于知识图谱和强化学习的交互式推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。