专利点击率预测模型的训练方法、资源推荐方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211221933.4 (22)申请日 2022.10.08 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人李科浇　周波　王凡　黄世维　何径舟　 (74)专利代理机构北京易光知识产权代理有限公司 11596 专利代理师阎敏　王姗姗 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/9536(2019.01) G06N 20/00(2019.01) G06Q 50/00(2012.01) (54)发明名称点击率预测模型的训练方法、资源推荐方法及装置 (57)摘要本公开提供了点击率预测模型的训练方法、资源推荐方法及装置，涉及人工智能技术领域，尤其涉及智能搜索及深度学习领域，可用于智慧城市场景。具体实现方案为：控制多个并行执行的子进程分别从候选样本集合中筛选出第一样本集合并得到第一样本集合对应的第一参数；汇总第一参数，得到第一参数集合；基于各第一样本集合的样本状态、第一参数集合和各子进程对候选样本集合的筛选动作，训练主进程的目标筛选器；基于目标筛选器从候选样本集合中筛选出第二样本集合；基于第二样本集合和已知正样本集合训练主进程的目标点击率预测模型；在目标点击率预测模型满足训练收敛条件的情况下，结束对目标点击率预测模型的训练。本公开可以提高模型的学习效率。权利要求书4页说明书13页附图7页 CN 115510327 A 2022.12.23 CN 115510327 A 1.一种点击率预测模型的训练方法，包括：控制多个并行执行的子进程分别从候选样本集合中筛选出第一样本集合并得到各第一样本集合分别对应的第一参数；汇总各第一样本集合对应的第一参数，得到第一参数集合；基于各第一样本集合的样本状态、所述第一参数集合和各子进程对所述候选样本集合的筛选动作，训练主进程的目标筛选器；基于所述目标筛选器从所述候选样本集合中筛选出第二样本集合；基于所述第二样本集合和已知正样本集合训练所述主进程的目标点击率预测模型；在所述目标点击率预测模型满足训练收敛条件的情况下，结束对所述目标点击率预测模型的训练。 2.根据权利要求1所述的方法，其中，每个子进程具有对应的筛选器副本和点击率预测模型副本，所述控制多个并行执行的子进程分别从候选样本集合中筛选出第一样本集合并得到各第一样本集合分别对应的第一参数，包括：针对每个子进程分别执行以下操作：控制所述子进程在所述子进程的筛选器副本处于探索模式的情况下，从候选样本集合中筛选出第一样本集合；控制所述子进程将所述第一样本集合和所述已知正样本集合输入所述子进程的点击率预测模型副本，得到所述第一样本集合对应的第一参数。 3.根据权利要求1或2所述的方法，还包括：所述训练主进程的目标筛选器之后，将所述目标筛选器的模型参数同步更新给各子进程的筛选器副本；以及，所述训练所述主进程的目标点击率预测模型之后，将所述目标点击率预测模型的模型参数同步更新给各子进程的点击率预测模型副本。 4.根据权利要求1 ‑3中任一项所述的方法，还包括：在所述目标点击率预测模型不满足所述训练收敛条件的情况下，返回执行所述控制多个并行执行的子进程分别从候选样本集合中筛选出第一样本集合并得到各第一样本集合分别对应的第一参数的步骤，直至所述目标点击率预测模型满足训练收敛条件为止。 5.根据权利要求1 ‑4中任一项所述的方法，其中，针对每个第一样本集合，得到所述第一样本集合对应的第一参数，包括：基于所述第一样本集合中各目标样本的点击率预测值，确定所述各目标样本的第一子参数；基于所述目标点击率预测模型的模型评估结果，确定第二子参数；基于所述各目标样本的第一子参数和所述第二子参数，确定所述第一样本集合对应的第一参数。 6.根据权利要求5所述的方法，其中，所述候选样本集合包括正样本和未标记的样本；所述第一样本集合中包括筛选出的正样本和筛选出的负样本；针对每个目标样本，基于所述目标样本的点击率预测值，确定所述目标样本的第一子参数，包括：基于指定原则，确定所述目标样本的第一子参数；权　利　要　求　书 1/4 页 2 CN 115510327 A 2其中，在所述目标样本为从未标记的样本中筛选出的样本的情况下，所述指定原则用于：基于所述点击率预测值对所述目标样本的第一判定结果与筛选动作表示的第二判定结果一致的情况下，所述第一子参数为正值，所述第一判定结果和所述第二判定结果不一致的情况下，所述第一子参数为负值；所述第一判定结果和所述第二判定结果用于表示所述目标样本为正样本或负样本；在所述目标样本为从正样本中筛选出的正样本的情况下，所述指定原则用于将所述目标样本的第一子参数设置为默认值。 7.根据权利要求6所述的方法，满足所述指定准则的第一子参数表达式包括：其中， clip()表示截断函数，表示将以及的取值限定在( ‑1， 1)范围内， ci 表示点击率预测模型的预测结果， oi表示筛选器的筛选结果。 8.根据权利要求5所述的方法，其中，所述候选样本集合包括未标记的负样本；所述第一样本集合中包括筛选出的负样本；针对每个目标样本，基于所述目标样本的点击率预测值，确定所述目标样本的第一子参数，包括：在基于所述点击率预测值确定所述目标样本为负样本的情况下，确定所述目标样本的第一子参数为预设正值；在基于所述点击率预测值确定所述目标样本为正样本的情况下，确定所述目标样本的第一子参数为预设负值。 9.根据权利要求5所述的方法，其中，所述基于所述各目标样本的第一子参数和所述第二子参数，确定所述第一样本集合对应的第一参数，包括：将所述第二子参数、所述各目标样本的第一子参数的累加和进行加权求和处理，得到所述第一参数。 10.一种资源推荐方法，应用如权利要求1 ‑9中任一项方法训练得到的点击率预测模型，包括：响应于对目标用户的推荐请求，获取候选资源；将所述候选资源输入所述点击率预测模型，得到所述目标用户对所述候选资源的点击率；基于所述候选资源的点击率确定将所述候选资源推荐给所述目标用户的情况下，向所述目标用户发送所述候选资源。 11.一种点击率预测模型的训练装置，包括：并行执行模块，用于控制多个并行执行的子进程分别从候选样本集合中筛选出第一样本集合并得到各第一样本集合分别对应的第一参数；奖励确定模块，用于汇总各第一样本集合对应的第一参数，得到第一参数集合；第一训练模块，用于基于各第一样本集合的样本状态、所述第一参数集合和各子进程权　利　要　求　书 2/4 页 3 CN 115510327 A 3

专利 点击率预测模型的训练方法、资源推荐方法及装置

专利点击率预测模型的训练方法、资源推荐方法及装置