全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211257122.X (22)申请日 2022.10.14 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 徐林嘉 陈李龙 袁如怡 李睿琦  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 曾情 (51)Int.Cl. G06N 20/00(2019.01) (54)发明名称 用户筛选方法、 装置、 计算机设备、 存储介质 和程序产品 (57)摘要 本申请涉及一种用户筛选方法、 装置、 计算 机设备、 存储介质和程序产品, 涉及大数据技术 领域, 包括获取多个候选用户的历史行为信息; 将多个候选用户的历史行为信息输入至目标预 设模型中进行用户筛选, 生 成多个候选用户的筛 选结果; 多个候选用户的筛选结果用于表征候选 用户为目标用户的概率; 其中, 目标预设模型为 基于目标训练样本数据集进行训练所生成的, 且 目标训练样本数据集为从训练样本数据集及预 测样本数据集中进行数据筛选后所生成的; 训练 样本数据集为存在数据集偏移的样 本数据, 且预 测样本数据集为不存在数据集偏移的样本数据 集; 基于多个候选用户的筛选结果, 从多个候选 用户中确定目标用户。 本申请提高了筛选出的目 标用户的准确性。 权利要求书2页 说明书22页 附图7页 CN 115545214 A 2022.12.30 CN 115545214 A 1.一种用户筛 选方法, 其特 征在于, 所述方法包括: 获取多个候选用户的历史行为信息; 将所述多个候选用户的历史行为信 息输入至目标预设模型中进行用户筛选, 生成所述 多个候选用户的筛选结果; 所述多个候选用户的筛选结果用于表征候选用户为目标用户的 概率; 其中, 所述目标预设模型为基于目标训练样本数据集进 行训练所生成的, 且所述目标 训练样本数据集为从训练样本数据集及预测样本数据集中进 行数据筛选后所生成的; 所述 训练样本数据集中包含第一样本用户的历史行为信息, 且所述训练样本数据集为存在数据 集偏移的样本数据集; 所述预测样本数据集中包含第二样本用户的历史行为信息, 且所述 预测样本数据集 为不存在数据集偏移的样本数据集; 基于所述多个候选用户的筛 选结果, 从所述多个候选用户中确定目标用户。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取所述训练样本数据集; 获取所述预测样本数据集; 根据所述预测样本数据集对所述训练样本数据集进行数据筛选, 生成 目标训练样本数 据集; 将所述目标训练样本数据集输入至预设模型中进行训练, 对所述预设模型的预设模型 参数进行调整, 生成调整后的模型参数; 基于所述调整后的模型参数, 生成目标 预设模型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述预测样本数据集对所述训练 样本数据集进行 数据筛选, 生成目标训练样本数据集, 包括: 计算所述训练样本数据集中的训练样本数据与所述预测样本数据集中的预测样本数 据之间的相似度; 根据所述相似度对所述训练样本数据集进行 数据筛选, 生成目标训练样本数据集。 4.根据权利要求3所述的方法, 其特征在于, 所述计算所述训练样本数据集中的训练样 本数据与所述预测样本数据集中的预测样本数据之间的相似度, 包括: 将所述训练样本数据集输入预设数据校准模型中进行相似度计算, 生成所述训练样本 数据集中的训练样本数据与所述预测样本数据集中的预测样本数据之 间的相似度; 所述预 设数据校准模型为基于所述训练样本数据集及所述预测样本数据集所训练得到的模型。 5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 将所述训练样本数据集以及所述预测样本数据集输入初始数据校准模型中进行训练, 得到所述训练样本数据集中各训练样本数据的预测结果; 所述预测结果用于表征训练样本 数据与所述预测样本数据集中与所述训练样本数据对应的预测样本数据之间的预测相似 度, 所述初始数据校准模型为基于 机器学习模型 所构建的模型; 针对各训练样本数据, 根据 所述训练样本数据的预测结果及所述训练样本数据的标注 结果, 计算损失函数 的值; 所述标注结果用于表征所述训练样本数据与所述预测样本数据 集中与所述训练样本数据对应的预测样本数据之间的标注相似度; 根据所述损失函数的值对所述初始数据校准模型的参数进行调整, 得到所述预设数据 校准模型。 6.根据权利要求2所述的方法, 其特 征在于, 所述获取 所述训练样本数据集, 包括:权 利 要 求 书 1/2 页 2 CN 115545214 A 2获取初始训练样本数据集; 确定所述预设模型对应的初始训练样本数据集是否存在数据集偏移; 若所述预设模型对应的初始训练样本数据集存在数据集偏移, 则将所述初始训练样本 数据集作为所述训练样本数据集。 7.根据权利要求6所述的方法, 其特征在于, 所述确定预设模型对应的初始训练样本数 据集是否存在数据集偏移, 包括: 获取所述预设模型的模型 稳定性指标; 根据所述模型稳定性指标, 确定所述预设模型对应的初始训练样本数据集是否存在数 据集偏移。 8.根据权利要求7所述的方法, 其特征在于, 所述模型稳定性指标包括群体稳定性指 标、 区分度评估指标、 分类评价指标以及相关业务指标中的至少一种指标; 所述根据所述模 型稳定性指标, 确定所述预设模型对应的初始训练样本数据集是否存在数据集偏移, 包括: 判断所述模型 稳定性指标 是否满足与所述模型 稳定性指标对应的预设条件; 若否, 则确定所述预设模型对应的初始训练样本数据集存在数据集偏移。 9.一种用户筛 选装置, 其特 征在于, 所述装置包括: 历史行为信息获取模块, 用于获取多个候选用户的历史行为信息; 用户筛选模块, 用于将所述多个候选用户的历史行为信 息输入至目标预设模型中进行 用户筛选, 生成所述多个候选用户的筛选结果; 所述多个候选用户的筛选结果用于表征候 选用户为 目标用户的概率; 其中, 所述 目标预设模型为基于目标训练样本数据集进行训练 所生成的, 且所述目标训练样本数据集为从训练样本数据集及预测样本数据集中进行数据 筛选后所生成的; 所述训练样本数据集中包含第一样本用户的历史行为信息, 且所述训练 样本数据集为存在数据集偏移的样本数据集; 所述预测样本数据集中包含第二样本用户的 历史行为信息, 且所述预测样本数据集 为不存在数据集偏移的样本数据集; 目标用户 确定模块, 用于基于所述多个候选用户的筛选结果, 从所述多个候选用户中 确定目标用户。 10.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。 11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。 12.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至8中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115545214 A 3

.PDF文档 专利 用户筛选方法、装置、计算机设备、存储介质和程序产品

文档预览
中文文档 32 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用户筛选方法、装置、计算机设备、存储介质和程序产品 第 1 页 专利 用户筛选方法、装置、计算机设备、存储介质和程序产品 第 2 页 专利 用户筛选方法、装置、计算机设备、存储介质和程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:13:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。