专利一种基于群体智慧的机器学习样本过采样方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111520495.7 (22)申请日 2021.12.13 (71)申请人四川长虹电器股份有限公司地址 621000 四川省绵阳市高新区绵兴东路35号 (72)发明人刘婵　吴上波　 (74)专利代理机构成都虹桥专利事务所(普通合伙) 51124 代理人吴中伟 (51)Int.Cl. G06N 20/00(2019.01) G06F 16/951(2019.01) G06F 16/9535(2019.01) G06F 16/958(2019.01) (54)发明名称一种基于群体智慧的机器学习样本过采样方法 (57)摘要本发明涉及机器学习领域，其公开了一种基于群体智慧的机器学习样本过采样方法，解决现有技术中的过采样方案通过重复正样本容易造成模型的过拟合的问题。本发明方案包括：首先利用大数据平台，获得大量的用户行为数据；然后，在用户行为数据中根据所需规则提取出行为正负样本集，构成原始样本集；接着，对原始样本集中的用户进行分群，分为低活跃用户和非低活跃用户；然后，针对低活跃用户，使用基于群体智慧的机器学习算法，生成用户补充正样本集；然后，去除原始样本集与补充样本集重复/冲突的样本；最后从补充样本集中进行采样补充到原始样本集。权利要求书1页说明书4页附图1页 CN 114239851 A 2022.03.25 CN 114239851 A 1.一种基于群体智慧的机器学习样本过采样方法，其特征在于，包括以下步骤： S1、利用大数据平台对用户基于智能电视的日常行为数据进行搜集，获得海量用户行为数据； S2、在获得的海量用户行为数据中，根据相应规则提取出正、负样本数据集，构成原始样本集； S3、基于用户的行为特征，对用户进行分群，分为低活跃用户群体和非低活跃用户群体； S4、针对低活跃群体中的每位用户，使用基于群体智慧的机器学习算法，依据与该用户具有相似行为的非低活跃用户群体的行为，获得该低活跃用户可能喜欢的影片集合； S5、对获得的低活跃用户可能喜欢的影片集合添加随机生成的其他观影行为特征，生成用户虚拟正样本行为数据，形成所有低活跃用户的补充正样本数据集； S6、将补充正样本数据集与原始观影行为数据集中的负样本集进行比较，从补充正样本数据集中去除与原始观影行为数据集冲突/ 重复的用户观影行为数据； S7、计算原始观影行为数据集的实际不平衡率，根据目标不平衡率计算得出需要过采样的正样本数量，从低活跃用户的补充正样本数据集中进行采样并补充到原始观影行为数据集。 2.如权利要求1所述的一种基于群体智慧的机器学习样本过采样方法，其特征在于，步骤S1中，所述日常行为数据包括：语音搜索数据、文本搜索数据，影视推荐页面浏览点击数据和/或影视观影数据。 3.如权利要求1所述的一种基于群体智慧的机器学习样本过采样方法，其特征在于，步骤S2具体包括：在获得的海量用户行为数据中，根据具体行为特征及其上下文，判断出正样本数据和负样本数据，构建对应的正、负样本数据集和负样本数据集，所述正样本数据包括有效观影数据，所述负样本数据包括浏览未点击或点击但无效观看行为。 4.如权利要求1所述的一种基于群体智慧的机器学习样本过采样方法，其特征在于，步骤S3中，对用户分群的方法包括指标得分结果阈值分群或聚类算法分群。 5.如权利要求1所述的一种基于群体智慧的机器学习样本过采样方法，其特征在于，步骤S4中，所述基于群体智慧的机器学习算法包括协同过滤或矩阵分解算法。 6.如权利要求1 ‑5任意一项所述的一种基于群体智慧的机器学习样本过采样方法，其特征在于，步骤S6具体包括：对比用户补充正样本集中的 “用户‑影视”映射与原始样本集中的 “用户‑影视”映射，从补充正样本集中删除同时出现在两个样本集中的映射。权　利　要　求　书 1/1 页 2 CN 114239851 A 2一种基于群体智慧的机器学习样本过采样方法技术领域 [0001]本发明涉及机器学习领域，具体涉及一种基于群体智慧的机器学习样本过采样方法。背景技术 [0002]在智能电视普及的当代，利用推荐算法向用户进行个性化的、精准的影视推荐已成为用户的强需求。推荐算法进行模型训练时，数据集的不平衡率(Imbalance Rate,IR)是模型训练结果好坏的一大影响因子，不平衡的数据集可能导致模型训练效果不佳或训练失败。 [0003]实际业务场景中，几乎所有的数据集都是不平衡数据。例如在影视推荐领域，假设将用户观看影视的行为作为正样本，将用户浏览但未观看的行为作为负样本，那么负样本数据量将远大于正样本数据量。如果想要获得更好的训练效果，就需要解决数据集不平衡的问题。 [0004]目前，解决数据集不平衡问题的方法，除了改进已有的算法使其更适配不平衡的数据集外，更多的是从数据层面进行重新采样，增加数据量小的正样本的数量(过采样)，或减少数据量大的负样本的数量(欠采样)。现有的过采样方法，主要是通过重复正样本来实现的，容易造成模型的过拟合，如果正样本中部分标记错误，那么错误也易被成倍放大。发明内容 [0005]本发明所要解决的技术问题是：提出一种基于群体智慧的机器学习样本过采样方法，解决现有技术中的过采样方案通过重复正样本容易造成模型的过拟合的问题。 [0006]本发明解决上述技术问题采用的技术方案是： [0007]一种基于群体智慧的机器学习样本过采样方法，包括以下步骤： [0008]S1、利用大数据平台对用户基于智能电视的日常行为数据进行搜集，获得海量用户行为数据； [0009]S2、在获得的海量用户行为数据中，根据相应规则提取出正、负样本数据集，构成原始样本集； [0010]S3、基于用户的行为特征，对用户进行分群，分为低活跃用户群体和非低活跃用户群体； [0011]S4、针对低活跃群体中的每位用户，使用基于群体智慧的机器学习算法，依据与该用户具有相似行为的非低活跃用户群体的行为，获得该低活跃用户可能喜欢的影片集合； [0012]S5、对获得的低活跃用户可能喜欢的影片集合添加随机生成的其他观影行为特征，生成用户虚拟正样本行为数据，形成所有低活跃用户的补充正样本数据集； [0013]S6、将补充正样本数据集与原始观影行为数据集中的负样本集进行比较，从补充正样本数据集中去除与原始观影行为数据集冲突/ 重复的用户观影行为数据； [0014]S7、计算原始观影行为数据集的实际不平衡率，根据目标不平衡率计算得出需要说　明　书 1/4 页 3 CN 114239851 A 3

专利 一种基于群体智慧的机器学习样本过采样方法

专利一种基于群体智慧的机器学习样本过采样方法