全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111520495.7 (22)申请日 2021.12.13 (71)申请人 四川长虹电器股份有限公司 地址 621000 四川省绵阳市高新区绵兴东 路35号 (72)发明人 刘婵 吴上波  (74)专利代理 机构 成都虹桥专利事务所(普通 合伙) 51124 代理人 吴中伟 (51)Int.Cl. G06N 20/00(2019.01) G06F 16/951(2019.01) G06F 16/9535(2019.01) G06F 16/958(2019.01) (54)发明名称 一种基于群体智慧的机器学习样本过采样 方法 (57)摘要 本发明涉及机器学习领域, 其 公开了一种基 于群体智慧的机器学习样本过采样方法, 解决现 有技术中的过采样方案通过重复正样本容易造 成模型的过拟合的问题。 本发明方案包括: 首先 利用大数据平台, 获得大量的用户行为数据; 然 后, 在用户行为数据中根据所需规则提取出行为 正负样本集, 构成原始样本集; 接着, 对原始样本 集中的用户进行分群, 分为低活跃用户和非低活 跃用户; 然后, 针对低活跃用户, 使用基于群体智 慧的机器学习算法, 生成用户补充正样本集; 然 后, 去除原始样本集与补充样本集重复/冲突的 样本; 最后从补充样本集中进行采样补充到原始 样本集。 权利要求书1页 说明书4页 附图1页 CN 114239851 A 2022.03.25 CN 114239851 A 1.一种基于群 体智慧的机器学习样本过采样方法, 其特 征在于, 包括以下步骤: S1、 利用大数据平台对用户基于智能电视的日常行为数据进行搜集, 获得海量用户行 为数据; S2、 在获得的海量用户行为数据中, 根据相应规则提取出正、 负样本数据集, 构成原始 样本集; S3、 基于用户的行为特征, 对用户进行分群, 分为低活跃用户群体和非低活跃用户群 体; S4、 针对低活跃群体 中的每位用户, 使用基于群体智慧的机器学习算法, 依据与该用户 具有相似行为的非低活跃用户群 体的行为, 获得 该低活跃用户可能喜欢的影片集 合; S5、 对获得的低活跃用户可能喜欢的影片集合添加随机生成的其他观影行为特征, 生 成用户虚拟正样本行为数据, 形成所有低活跃用户的补充正样本数据集; S6、 将补充正样本数据集与原始观影行为数据集中的负样本集进行比较, 从补充正样 本数据集中去除与原 始观影行为数据集冲突/ 重复的用户观影行为数据; S7、 计算原始观影行为数据集的实际不平衡率, 根据目标不平衡率计算得出需要过采 样的正样本数量, 从低活跃用户的补充正样本数据集中进 行采样并补充到原始观影行为数 据集。 2.如权利要求1所述的一种基于群 体智慧的机器学习样本过采样方法, 其特 征在于, 步骤S1中, 所述日常行为数据包括: 语音搜索数据、 文本搜索数据, 影视推荐页面浏览 点击数据和/或影视观影数据。 3.如权利要求1所述的一种基于群 体智慧的机器学习样本过采样方法, 其特 征在于, 步骤S2具体包括: 在获得的海量用户行为数据中, 根据具体行为特征及其上下文, 判断出正样本数据和 负样本数据, 构建对应的正、 负样 本数据集和负样本数据集, 所述正样本数据包括有效观影 数据, 所述负 样本数据包括浏览未点击或点击但无效观看行为。 4.如权利要求1所述的一种基于群 体智慧的机器学习样本过采样方法, 其特 征在于, 步骤S3中, 对用户分群的方法包括指标 得分结果阈值分群或聚类算法分群。 5.如权利要求1所述的一种基于群 体智慧的机器学习样本过采样方法, 其特 征在于, 步骤S4中, 所述基于群 体智慧的机器学习算法包括协同过 滤或矩阵分解 算法。 6.如权利要求1 ‑5任意一项所述的一种基于群体智慧的机器学习样本过采样方法, 其 特征在于, 步骤S6具体包括: 对比用户补充正样本集中的 “用户‑影视”映射与原始样本集中的 “用户‑影视”映射, 从 补充正样本集中删除 同时出现在两个样本集中的映射。权 利 要 求 书 1/1 页 2 CN 114239851 A 2一种基于群体智慧的机 器学习样本过采 样方法 技术领域 [0001]本发明涉及机器学习领域, 具体涉及一种基于群体智慧的机器学习样本过采样 方 法。 背景技术 [0002]在智能电视普及的当代, 利用推荐算法向用户进行个性化的、 精准的影视推荐已 成为用户的强需求。 推荐算法进行模 型训练时, 数据集的不平衡率(Imbalance  Rate,IR)是 模型训练结果好坏的一大影响因子, 不平衡的数据集可能导致模型训练效果不佳或训练失 败。 [0003]实际业务场景中, 几乎所有的数据集都是不平衡数据。 例如在影视推荐领域, 假设 将用户观看影视的行为作为正样本, 将用户浏览但未观看的行为作为负样本, 那么负样本 数据量将远大于正样本数据量。 如果想要获得更好的训练效果, 就需要解决数据集不平衡 的问题。 [0004]目前, 解决数据集不平衡问题的方法, 除了改进已有的算法使其更适配不平衡的 数据集外, 更多的是从数据层面进 行重新采样, 增加数据量小的正样本的数量(过采样), 或 减少数据量大的负样本的数量(欠采样)。 现有的过采样方法, 主要是通过重复正样本来实 现的, 容易造成模型的过拟合, 如果 正样本中部分标记错 误, 那么错 误也易被成倍 放大。 发明内容 [0005]本发明所要解决的技术问题是: 提出一种基于群体智慧的机器学习样本过采样 方 法, 解决现有技 术中的过采样方案通过重复正样本容 易造成模型的过拟合的问题。 [0006]本发明解决上述 技术问题采用的技 术方案是: [0007]一种基于群 体智慧的机器学习样本过采样方法, 包括以下步骤: [0008]S1、 利用大数据平台对用户基于智能电视的日常行为数据进行搜集, 获得海量用 户行为数据; [0009]S2、 在获得的海量用户行为数据中, 根据相应规则提取出正、 负样本数据集, 构成 原始样本集; [0010]S3、 基于用户的行为特征, 对用户进行分群, 分为低活跃用户群体和非低活跃用户 群体; [0011]S4、 针对低活跃群体中的每位用户, 使用基于群体智慧的机器学习算法, 依据与该 用户具有相似行为的非低活跃用户群 体的行为, 获得 该低活跃用户可能喜欢的影片集 合; [0012]S5、 对获得的低活跃用户可能喜欢的影片集合添加随机生成的其他观影行为特 征, 生成用户虚拟正样本行为数据, 形成所有低活跃用户的补充正样本数据集; [0013]S6、 将补充正样本数据集与原始观影行为数据集中的负样本集进行比较, 从补充 正样本数据集中去除与原 始观影行为数据集冲突/ 重复的用户观影行为数据; [0014]S7、 计算原始观影行为数据集的实际不平衡率, 根据目标不平衡率计算得出需要说 明 书 1/4 页 3 CN 114239851 A 3

.PDF文档 专利 一种基于群体智慧的机器学习样本过采样方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于群体智慧的机器学习样本过采样方法 第 1 页 专利 一种基于群体智慧的机器学习样本过采样方法 第 2 页 专利 一种基于群体智慧的机器学习样本过采样方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。