全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111675261.X (22)申请日 2021.12.31 (71)申请人 中国联合网络通信集团有限公司 地址 100033 北京市西城区金融大街21号 (72)发明人 王蕾  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 代理人 霍莉莉 黄健 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/906(2019.01) G06F 16/9535(2019.01) (54)发明名称 用户画像模 型训练的方法、 用户数据确定方 法、 设备 (57)摘要 本公开提供的一种用户画像模型训练的方 法、 用户数据确定方法、 设备, 涉及用户画像技 术, 包括: 获取训练数据集; 训练数据集中包括多 个无标记的原始样本; 每个无标记的原始样本中 包括用户的多个特征; 对原始样 本中的多个特征 进行掩盖处理, 得到掩盖后的训练样本; 其中, 训 练样本中包括原始样本中的部分特征; 根据训练 样本以及与训练样本对应的原始样本对预设模 型进行训练, 得到用户画 像模型; 其中, 用户画 像 模型用于输出用户画像向量。 本公开提供的方案 可以对训练样本的不同种类的多个特征进行整 合训练, 能够发现不同特征之间的关联性, 使训 练结果在具有通用性的同时也能够带来更好的 准确率。 权利要求书2页 说明书8页 附图3页 CN 114330579 A 2022.04.12 CN 114330579 A 1.一种用户画像模型训练的方法, 其特 征在于, 包括: 获取训练数据集; 所述训练数据集中包括多个无标记的原始样本; 每个所述无标记的 原始样本中包括用户的多个特 征; 对所述原始样本 中的多个特征进行掩盖处理, 得到掩盖后的训练样本; 其中, 所述训练 样本中包括原 始样本中的部分特 征; 根据所述训练样本以及与 所述训练样本对应的原始样本对预设模型进行训练, 得到用 户画像模型; 其中, 所述用户画像模型用于 输出用户画像向量。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述原始样本 中的多个特征进行掩 盖处理, 得到掩盖后的训练样本, 包括: 对所述原 始样本中的每一特 征都进行以下处 理: 获取所述原始样本中的第一特 征; 其中, 所述第一特 征是所述原始样本中的任意特 征; 根据预设概率确定对所述第一特征的掩盖处理方式; 其中, 预先设置有与每种掩盖处 理方式对应的概 率值, 各概率值之和等于1; 根据确定的所述掩盖处 理方式对所述第一特 征进行掩盖处 理。 3.根据权利要求2所述的方法, 其特征在于, 确定的所述掩盖处理方式为第一方式时, 所述根据确定的所述掩盖处 理方式对所述第一特 征进行掩盖处 理, 包括: 将所述原 始样本中的所述第一特 征替换为掩盖特 征。 4.根据权利要求2所述的方法, 其特征在于, 确定的所述掩盖处理方式为第二方式时, 所述根据确定的所述掩盖处 理方式对所述第一特 征进行掩盖处 理, 包括: 将所述原 始样本中的所述第一特 征替换为与所述第一特 征属性相同的其 他特征。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述训练样本以及与 所述训练样 本对应的原 始样本对预设模型进行训练, 得到用户画像模型, 包括: 将所述训练样本 输入至预设模型中, 得到预测用户画像向量; 根据所述预测用户画像向量、 以及与所述训练样本对应的原始样本优化所述预设模型 中的参数, 得到优化后的预设模型; 其中, 满足停止训练条件的优化后的预设模型为所述用户画像模型。 6.根据权利要求5所述的方法, 其特征在于, 若所述原始样本是文本数据, 则所述将所 述训练样本 输入至预设模型中, 包括: 对所述训练样本进行编码, 得到编码后的训练样本; 将所述编码后的训练样本 输入至预设模型中。 7.根据权利要求1所述的方法, 其特征在于, 在训练样本的任意两个特征之间, 设置有 特殊分隔符。 8.根据权利要求5所述的方法, 其特征在于, 所述根据所述预测用户画像向量、 以及与 所述训练样本对应的原 始样本优化所述预设模型中的参数, 得到优化后的预设模型, 包括: 对所述预测用户画像向量进行解码处 理, 得到预测用户特 征; 根据所述预测用户特征、 与所述训练样本对应的原始样本中包括的特征, 构建损 失函 数, 并根据所述损失函数优化所述预设模型中的参数, 得到优化后的预设模型。 9.一种用户数据确定方法, 其特 征在于, 包括: 把用户信息输入到用户画像模型, 得到用户画像向量; 所述用户画像模型是通过权利权 利 要 求 书 1/2 页 2 CN 114330579 A 2要求1‑8任一项所述的方法训练得到的; 将用户画像向量输入到用于对用户画像向量进行处理的模型, 得到与用户对应的数 据。 10.一种用户画像模型训练的装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取训练数据集; 所述训练数据集中包括多个无标记的原始样本; 每个 所述无标记的原 始样本中包括用户的多个特 征; 处理单元, 用于对所述原始样本 中的多个特征进行掩盖处理, 得到掩盖后的训练样本; 其中, 所述训练样本中包括原 始样本中的部分特 征; 训练单元, 用于根据 所述训练样本以及与 所述训练样本对应的原始样本对预设模型进 行训练, 得到用户画像模型; 其中, 所述用户画像模型用于 输出用户画像向量。 11.一种用户数据确定装置, 其特 征在于, 包括: 处理单元, 用于把用户信 息输入到用户画像模型, 得到用户画像向量; 所述用户画像模 型是通过权利要求1 ‑8任一项所述的方法训练得到的; 确定单元, 用于将用户画像向量输入到用于对用户画像向量进行处理的模型, 得到与 用户对应的数据。 12.一种电子设备, 其特 征在于, 包括存 储器和处 理器; 其中, 所述存储器, 用于存 储计算机程序; 所述处理器, 用于读取所述存储器存储的计算机程序, 并根据所述存储器中的计算机 程序执行上述权利要求1 ‑8或9任一项所述的方法。 13.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机 执行指令, 当处理器执行所述计算机执行指令时, 实现上述权利要求1 ‑8或9任一项所述的 方法。 14.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时, 实现上述权利要求1 ‑8或9任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114330579 A 3

.PDF文档 专利 用户画像模型训练的方法、用户数据确定方法、设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用户画像模型训练的方法、用户数据确定方法、设备 第 1 页 专利 用户画像模型训练的方法、用户数据确定方法、设备 第 2 页 专利 用户画像模型训练的方法、用户数据确定方法、设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:45:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。