全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210169936.1 (22)申请日 2022.02.23 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区朝晖六 区 (72)发明人 陆佳炜 吴俚达 程振波 韦航俊  朱昊天 方静雯 徐俊 肖刚  (74)专利代理 机构 杭州浙科专利事务所(普通 合伙) 33213 专利代理师 汤明 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 40/289(2020.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称 一种基于双塔模型的知识图谱用户偏好实 体召回方法 (57)摘要 本发明公开了一种基于双塔模型的知识图 谱用户偏好实体召回方法, 在传统的双塔模型中 添加了优化方法, 用于更好的学习用户与物品之 间的交互, 已训练的双塔模型能用于召回在知识 图谱上与用户偏好相关的实体。 首先将用户历史 记录的物品在知识图谱对应的实体作为起点, 沿 着边检索到所有的邻居实体。 然后通过已经训练 好的优化双塔模 型对召回到的实体进行筛选。 最 后以召回到的实体作为新的起点, 重复上述操 作。 最终构成了能够表示用户偏好和潜在偏好的 知识图谱。 权利要求书6页 说明书14页 CN 114564594 A 2022.05.31 CN 114564594 A 1.一种基于双塔模型的知识图谱用户偏好实体召回方法, 其特 征在于, 包括如下步骤: 1)定义用户特 征向量和物品特 征向量, 作为双塔模型的输入; 2)训练双塔模型, 结合in ‑batch softmax损失函数与 基于哈希序列的频率估计方法对 双塔模型进行优化; 3)定义用户历史 交互矩阵与知识图谱的实体映射关系; 4)通过偏好实体传播的方式, 将每次传播召回到的实体与用户特征输入到优化的双塔 模型户偏得出预测概率, 根据预测 概率筛选实体, 最终得到表示用户偏好和潜在偏好的知 识图谱。 2.根据权利要求1所述的一种基于双塔模型的知识图谱用户偏好实体召回方法, 其特 征在于, 所述 步骤1)具体过程如下: 1.1)用户特征指的是用户对物品的交互行为, 包括点击记录, 搜索记录, 社交数据, 个 人数据和样 本年龄, 用户特征向量是将上述交互数据转化为向量并做 拼接concatenate; 其 中将原始数据转 化为向量的方式称为向量嵌入embed ding; 1.1.1)用户点击记录的embedding, 是所有点击物品的id类embedding的加权平均, 其 中id类embedding是将物品唯一标识符映射到同一维度的向量, 其权重与浏览物品时间成 正比; 其用户点击记录的embed ding计算公式如下: 其中vclick表示用户点击记录的embedding, 表示第i个权重, vclick,i表示点击记录中 第i个物品的id类embed ding, n表示embed ding的个数; 其中, 可通过如下公式计算: 其中 表示用户对物品i浏览的时间, N表示样本总数, k表示 正例总数; 1.1.2)用户搜索记录的embedding是历史搜索的关键词进行分词得到词条; 分词的过 程是通过Word2vec模型得到对应词条的embedding, 然后将用户搜索记录的embedding进行 加权平均; 其用户搜索记录的embed ding的计算公式如下: 其中vsearch表示用户搜索记录的embedding, 表示第i个权重, vsearch,i表示搜索记录 中第i个词条的embed ding, n表示embed ding的个数; 搜索记录的embed ding的权重计算: 其中搜索的有效性判断为用户是否在搜索后点击物品; 1.1.3)用户的社交数据包括收藏、 点赞和订阅数据对应的embeddin g加权平均; 其中收权 利 要 求 书 1/6 页 2 CN 114564594 A 2藏和点赞数据对应的embedding指的是用户收藏和点赞的物品id类的embedding; 订阅数据 对应的embed ding指的是用户订阅物品对应的负责人的id类的embed ding; 其用户社交数据的embed ding的计算公式如下: 其中vsocial表示用户搜索记录的embedding, 表示第i个权重, vsocial,i表示搜索记录 中第i个社交数据的embed ding; 对于收藏和点赞的embed ding的权重计算: 其中 表示用户对物品i浏览的时间, N表示样本总数, k表示 正例总数; 对于订阅的embed ding权重计算: 其中 示被订阅者第i个物品的浏览时间, N表示样本总数, k表示 正例总数; 1.1.4)用户的个人数据包括用户的性别、 年龄和地域; 其中性别是简单的二元特征, 年 龄和地域属于连续型特征, 将其归一化为[0,1]区间上的实数值; 用户个人数据的 embedding, 是将处 理过的性别、 年龄和地 域的值做拼接操作后得到的向量; 1.1.4.1)计算用户性别的二元表示, 其公式如下: 1.1.4.2)计算用户的年龄和地 域的归一 化实数值, 其归一 化公式如下: 其中X表示样本数值, μ为所有样本数据的均值, σ 为所有样本数据的标准差; 1.1.4.3)将步骤1.1.4)所述的性别二元值, 年龄和地域归一化实数值做拼接操作得到 一个向量, 这个向量 拼接操作公式如下: vpersonal=[gender,zage,zregion] 其中vpersonal表示用户特征 向量, gender表示用户性别, zage和zregion分别表示用户的年 龄和地域的归一 化值; 1 .1 .5)将步骤1 .1)流程所述的用户点击记录的embedding, 用户搜索记录的 embedding, 用户交互数据的embedding, 用户个人数据的embe dding做concatenate连接操 作得到用户特 征向量, 其公式如下: vuser=concatenate(vclick,vsearch,vsocial,vpersonal)=[vclick[1],vclick[2],…,vsearch [1],vsearch[2],…,vsocial[1],vsocial[2],…,vpersonal[1],vpersonal[2],…] 其中vuser表示用户特征向量, vclick[i]表示用户点击embedding的第i个分量, vsearch[i] 表示用户搜索 记录embedding的第i个分量, vsocial[i]表示用户社交数据embedding的第i个权 利 要 求 书 2/6 页 3 CN 114564594 A 3

.PDF文档 专利 一种基于双塔模型的知识图谱用户偏好实体召回方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双塔模型的知识图谱用户偏好实体召回方法 第 1 页 专利 一种基于双塔模型的知识图谱用户偏好实体召回方法 第 2 页 专利 一种基于双塔模型的知识图谱用户偏好实体召回方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。