专利一种基于双塔模型的知识图谱用户偏好实体召回方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210169936.1 (22)申请日 2022.02.23 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区朝晖六区 (72)发明人陆佳炜　吴俚达　程振波　韦航俊　朱昊天　方静雯　徐俊　肖刚　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师汤明 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 40/289(2020.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称一种基于双塔模型的知识图谱用户偏好实体召回方法 (57)摘要本发明公开了一种基于双塔模型的知识图谱用户偏好实体召回方法，在传统的双塔模型中添加了优化方法，用于更好的学习用户与物品之间的交互，已训练的双塔模型能用于召回在知识图谱上与用户偏好相关的实体。首先将用户历史记录的物品在知识图谱对应的实体作为起点，沿着边检索到所有的邻居实体。然后通过已经训练好的优化双塔模型对召回到的实体进行筛选。最后以召回到的实体作为新的起点，重复上述操作。最终构成了能够表示用户偏好和潜在偏好的知识图谱。权利要求书6页说明书14页 CN 114564594 A 2022.05.31 CN 114564594 A 1.一种基于双塔模型的知识图谱用户偏好实体召回方法，其特征在于，包括如下步骤： 1)定义用户特征向量和物品特征向量，作为双塔模型的输入； 2)训练双塔模型，结合in ‑batch softmax损失函数与基于哈希序列的频率估计方法对双塔模型进行优化； 3)定义用户历史交互矩阵与知识图谱的实体映射关系； 4)通过偏好实体传播的方式，将每次传播召回到的实体与用户特征输入到优化的双塔模型户偏得出预测概率，根据预测概率筛选实体，最终得到表示用户偏好和潜在偏好的知识图谱。 2.根据权利要求1所述的一种基于双塔模型的知识图谱用户偏好实体召回方法，其特征在于，所述步骤1)具体过程如下： 1.1)用户特征指的是用户对物品的交互行为，包括点击记录，搜索记录，社交数据，个人数据和样本年龄，用户特征向量是将上述交互数据转化为向量并做拼接concatenate；其中将原始数据转化为向量的方式称为向量嵌入embed ding； 1.1.1)用户点击记录的embedding，是所有点击物品的id类embedding的加权平均，其中id类embedding是将物品唯一标识符映射到同一维度的向量，其权重与浏览物品时间成正比；其用户点击记录的embed ding计算公式如下：其中vclick表示用户点击记录的embedding，表示第i个权重， vclick,i表示点击记录中第i个物品的id类embed ding， n表示embed ding的个数；其中，可通过如下公式计算：其中表示用户对物品i浏览的时间， N表示样本总数， k表示正例总数； 1.1.2)用户搜索记录的embedding是历史搜索的关键词进行分词得到词条；分词的过程是通过Word2vec模型得到对应词条的embedding，然后将用户搜索记录的embedding进行加权平均；其用户搜索记录的embed ding的计算公式如下：其中vsearch表示用户搜索记录的embedding，表示第i个权重， vsearch,i表示搜索记录中第i个词条的embed ding， n表示embed ding的个数；搜索记录的embed ding的权重计算：其中搜索的有效性判断为用户是否在搜索后点击物品； 1.1.3)用户的社交数据包括收藏、点赞和订阅数据对应的embeddin g加权平均；其中收权　利　要　求　书 1/6 页 2 CN 114564594 A 2藏和点赞数据对应的embedding指的是用户收藏和点赞的物品id类的embedding；订阅数据对应的embed ding指的是用户订阅物品对应的负责人的id类的embed ding；其用户社交数据的embed ding的计算公式如下：其中vsocial表示用户搜索记录的embedding，表示第i个权重， vsocial,i表示搜索记录中第i个社交数据的embed ding；对于收藏和点赞的embed ding的权重计算：其中表示用户对物品i浏览的时间， N表示样本总数， k表示正例总数；对于订阅的embed ding权重计算：其中示被订阅者第i个物品的浏览时间， N表示样本总数， k表示正例总数； 1.1.4)用户的个人数据包括用户的性别、年龄和地域；其中性别是简单的二元特征，年龄和地域属于连续型特征，将其归一化为[0,1]区间上的实数值；用户个人数据的 embedding，是将处理过的性别、年龄和地域的值做拼接操作后得到的向量； 1.1.4.1)计算用户性别的二元表示，其公式如下： 1.1.4.2)计算用户的年龄和地域的归一化实数值，其归一化公式如下：其中X表示样本数值， μ为所有样本数据的均值， σ 为所有样本数据的标准差； 1.1.4.3)将步骤1.1.4)所述的性别二元值，年龄和地域归一化实数值做拼接操作得到一个向量，这个向量拼接操作公式如下： vpersonal＝[gender,zage,zregion] 其中vpersonal表示用户特征向量， gender表示用户性别， zage和zregion分别表示用户的年龄和地域的归一化值； 1 .1 .5)将步骤1 .1)流程所述的用户点击记录的embedding，用户搜索记录的 embedding，用户交互数据的embedding，用户个人数据的embe dding做concatenate连接操作得到用户特征向量，其公式如下： vuser＝concatenate(vclick,vsearch,vsocial,vpersonal)＝[vclick[1],vclick[2],…,vsearch [1],vsearch[2],…,vsocial[1],vsocial[2],…,vpersonal[1],vpersonal[2],…] 其中vuser表示用户特征向量， vclick[i]表示用户点击embedding的第i个分量， vsearch[i] 表示用户搜索记录embedding的第i个分量， vsocial[i]表示用户社交数据embedding的第i个权　利　要　求　书 2/6 页 3 CN 114564594 A 3

专利 一种基于双塔模型的知识图谱用户偏好实体召回方法

专利一种基于双塔模型的知识图谱用户偏好实体召回方法