(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210169936.1
(22)申请日 2022.02.23
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区朝晖六
区
(72)发明人 陆佳炜 吴俚达 程振波 韦航俊
朱昊天 方静雯 徐俊 肖刚
(74)专利代理 机构 杭州浙科专利事务所(普通
合伙) 33213
专利代理师 汤明
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/33(2019.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)G06N 20/00(2019.01)
(54)发明名称
一种基于双塔模型的知识图谱用户偏好实
体召回方法
(57)摘要
本发明公开了一种基于双塔模型的知识图
谱用户偏好实体召回方法, 在传统的双塔模型中
添加了优化方法, 用于更好的学习用户与物品之
间的交互, 已训练的双塔模型能用于召回在知识
图谱上与用户偏好相关的实体。 首先将用户历史
记录的物品在知识图谱对应的实体作为起点, 沿
着边检索到所有的邻居实体。 然后通过已经训练
好的优化双塔模 型对召回到的实体进行筛选。 最
后以召回到的实体作为新的起点, 重复上述操
作。 最终构成了能够表示用户偏好和潜在偏好的
知识图谱。
权利要求书6页 说明书14页
CN 114564594 A
2022.05.31
CN 114564594 A
1.一种基于双塔模型的知识图谱用户偏好实体召回方法, 其特 征在于, 包括如下步骤:
1)定义用户特 征向量和物品特 征向量, 作为双塔模型的输入;
2)训练双塔模型, 结合in ‑batch softmax损失函数与 基于哈希序列的频率估计方法对
双塔模型进行优化;
3)定义用户历史 交互矩阵与知识图谱的实体映射关系;
4)通过偏好实体传播的方式, 将每次传播召回到的实体与用户特征输入到优化的双塔
模型户偏得出预测概率, 根据预测 概率筛选实体, 最终得到表示用户偏好和潜在偏好的知
识图谱。
2.根据权利要求1所述的一种基于双塔模型的知识图谱用户偏好实体召回方法, 其特
征在于, 所述 步骤1)具体过程如下:
1.1)用户特征指的是用户对物品的交互行为, 包括点击记录, 搜索记录, 社交数据, 个
人数据和样 本年龄, 用户特征向量是将上述交互数据转化为向量并做 拼接concatenate; 其
中将原始数据转 化为向量的方式称为向量嵌入embed ding;
1.1.1)用户点击记录的embedding, 是所有点击物品的id类embedding的加权平均, 其
中id类embedding是将物品唯一标识符映射到同一维度的向量, 其权重与浏览物品时间成
正比; 其用户点击记录的embed ding计算公式如下:
其中vclick表示用户点击记录的embedding,
表示第i个权重, vclick,i表示点击记录中
第i个物品的id类embed ding, n表示embed ding的个数; 其中,
可通过如下公式计算:
其中
表示用户对物品i浏览的时间, N表示样本总数, k表示 正例总数;
1.1.2)用户搜索记录的embedding是历史搜索的关键词进行分词得到词条; 分词的过
程是通过Word2vec模型得到对应词条的embedding, 然后将用户搜索记录的embedding进行
加权平均;
其用户搜索记录的embed ding的计算公式如下:
其中vsearch表示用户搜索记录的embedding,
表示第i个权重, vsearch,i表示搜索记录
中第i个词条的embed ding, n表示embed ding的个数;
搜索记录的embed ding的权重计算:
其中搜索的有效性判断为用户是否在搜索后点击物品;
1.1.3)用户的社交数据包括收藏、 点赞和订阅数据对应的embeddin g加权平均; 其中收权 利 要 求 书 1/6 页
2
CN 114564594 A
2藏和点赞数据对应的embedding指的是用户收藏和点赞的物品id类的embedding; 订阅数据
对应的embed ding指的是用户订阅物品对应的负责人的id类的embed ding;
其用户社交数据的embed ding的计算公式如下:
其中vsocial表示用户搜索记录的embedding,
表示第i个权重, vsocial,i表示搜索记录
中第i个社交数据的embed ding;
对于收藏和点赞的embed ding的权重计算:
其中
表示用户对物品i浏览的时间, N表示样本总数, k表示 正例总数;
对于订阅的embed ding权重计算:
其中
示被订阅者第i个物品的浏览时间, N表示样本总数, k表示 正例总数;
1.1.4)用户的个人数据包括用户的性别、 年龄和地域; 其中性别是简单的二元特征, 年
龄和地域属于连续型特征, 将其归一化为[0,1]区间上的实数值; 用户个人数据的
embedding, 是将处 理过的性别、 年龄和地 域的值做拼接操作后得到的向量;
1.1.4.1)计算用户性别的二元表示, 其公式如下:
1.1.4.2)计算用户的年龄和地 域的归一 化实数值, 其归一 化公式如下:
其中X表示样本数值, μ为所有样本数据的均值, σ 为所有样本数据的标准差;
1.1.4.3)将步骤1.1.4)所述的性别二元值, 年龄和地域归一化实数值做拼接操作得到
一个向量, 这个向量 拼接操作公式如下:
vpersonal=[gender,zage,zregion]
其中vpersonal表示用户特征 向量, gender表示用户性别, zage和zregion分别表示用户的年
龄和地域的归一 化值;
1 .1 .5)将步骤1 .1)流程所述的用户点击记录的embedding, 用户搜索记录的
embedding, 用户交互数据的embedding, 用户个人数据的embe dding做concatenate连接操
作得到用户特 征向量, 其公式如下:
vuser=concatenate(vclick,vsearch,vsocial,vpersonal)=[vclick[1],vclick[2],…,vsearch
[1],vsearch[2],…,vsocial[1],vsocial[2],…,vpersonal[1],vpersonal[2],…]
其中vuser表示用户特征向量, vclick[i]表示用户点击embedding的第i个分量, vsearch[i]
表示用户搜索 记录embedding的第i个分量, vsocial[i]表示用户社交数据embedding的第i个权 利 要 求 书 2/6 页
3
CN 114564594 A
3
专利 一种基于双塔模型的知识图谱用户偏好实体召回方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:52:02上传分享