全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111669798.5 (22)申请日 2021.12.3 0 (71)申请人 天翼电子商务有限公司 地址 100037 北京市西城区阜成门外大街 31号4层429D (72)发明人 毛万葵 贺伟 章庆 (51)Int.Cl. G06N 20/20(2019.01) G06K 9/62(2022.01) G06F 21/62(2013.01) (54)发明名称 一种基于联邦学习的不均衡数据集成学习 方法 (57)摘要 本发明公开了一种基于联邦学习的不均衡 数据集成学习方法, 主要分成三个阶段, 分别是 数据采集阶段、 模型学习阶段、 模型预测阶段。 数 据采集阶段为了降低样本中正负比例不均衡对 模型的影 响, 通过自适应边界采样方法实现数据 正负比例的均衡化。 模型学习阶段各参与方基于 均衡处理后的数据集进行联邦boosting集成学 习, 并将学习好的模型上传服务器。 模型预测阶 段是基于服务器端的多个基分类器对不同参与 方的测试集进行预测。 本发明在保护隐私和数据 安全的情况下, 有效提高了对不均衡数据的自动 均衡处理能力以及集成联邦学习的训练和预测 效果, 应用场景广泛, 具有一定的实际应用价 值。 权利要求书1页 说明书4页 附图2页 CN 114529014 A 2022.05.24 CN 114529014 A 1.一种基于联邦学习的不均衡数据集成学习方法, 其特征在于, 在保证各方数据隐私 安全的情况下, 对类别不均衡的数据集进行自适应边界采样降低数据的不平衡, 并结合横 向联邦的bo osting集成学习方法, 充分利用各参与方的数据, 提高数据分析的效率; 为实现上述方法, 本方案主要包括四个主要环节: 数据采集模块、 学习模块、 模型预测 模块; 本发明以两个参与节点 为例, 具体的处 理流程如下: S1.数据采集模块 数据参与方分别准备本地原始计算分类数据data1和data2, 数据采集模块包含数据采 样和数据采样后的整理; 首先进行随机采样将数据分成训练集为train_data和测试集为 test_data, 针对训练集中的样 本不均衡情况数据采集模块通过自适应边界的smote采样方 法, 对数据进行初步筛选, 然后通过Tomeklinks消除smote采样后的部分重叠样本, 得到均 衡样本; 整个过程中参与节点P1和P2的数据分布和明文 数据值通过数据输入模块始终保留 在本节点, 不会向对方节点 暴露; S2.学习模块 经过数据采集模块处理后的数据作为学习模块的输入, 节点P1和节点P2分别初始化自 己模型的参数w, 然后基于Boosting的集成学习方法对训练集进行学习, 最后生成一个由N 个基分类器组成的集成横向联邦分类 器; S3.模型预测模块 节点P1和P2将测试数据集作为上述集成分类器的输入, 得到模型的预测值, 并根据预 测结果计算平均召回率, 并根据平均召回率确定集成学习模型的稳定性和有效性。权 利 要 求 书 1/1 页 2 CN 114529014 A 2一种基于联邦学习的不均衡数据集成学习方 法 技术领域 [0001]本发明涉及联邦学习相关的技术领域, 特别涉及 一种基于联邦学习的不均衡数据 集成学习方法。 背景技术 [0002]联邦学习是近年来兴起的一种技术, “联邦学习 ”的概念最早由美国的谷歌 公司于 2016年提出, 最初是为了解决安卓手机终端用户在本地更新输入法中的频繁词模型的问 题, 其设计目标是保障大数据交换时的信息安全, 保护终端 数据和个人数据隐私, 保证合法 合规的前提下, 在多参与方或多计算结点之 间开展高效率的机器学习。 在该模型中, 参与者 在本地存储所有的训练数据, 在本地训练模型, 然后将训练得到的模 型更新传到 云端, 其他 参与者下载更新到 自己的移动设备, 提高训练模型 的准确性。 联邦学习 是一种将多个参与 方(数据方、 机构、 企业)在本地数据不出域的情况下, 通过密码学的机制对中间参数进 行安 全交互, 从而达 到协同计算和模型训练效果的一种分布式机器学习方法。 [0003]按照数据集合维度相似性构成的特点, 业界普遍将联邦学习分为跨样本联邦、 跨 特征联邦学习与混合型联邦, 本发明提出 的方法主要是跨样本的横向联邦学习技术。 横向 联邦的一个主要特点是各参与方数据中大部分的特征重叠, 但是各自拥有不同的用户对 象, 实际应用场景中, 比如: 人脸识别、 信用卡欺诈检测等场景。 [0004]横向联邦中, 针对样本不均衡的情况, 通常会在正式联邦建模前, 各参与方在本地 分别对数据集进行样本预处理, 常见 的有上采样和下采样等方法, 对数据集进行均衡化处 理。 但是实际中, 往往数据集的正负比例非常大, 导致数据类别失衡, 特别是少数类的边界 值容易被分错。 而且由于数据集中正负比例大, 针对模型最 终的评价体系也会有影响, 基础 的基于混淆矩阵的评价指标, 例如: 准确率、 召回率、 F1值 等指标都会受到影响。 [0005]与现有技 术方案对比: [0006]对比方案1: [0007]不均衡样本分类方法、 装置、 电子设备及存 储介‑‑‑‑‑‑CN202110474617.7 [0008]该对比发明方案提供一种不均衡样本分类方法、 装置、 电子设备及存储介质, 通过 对重新构建后的目标正样本数据集和目标负样本数据集, 采用预设的损失函数重新训练分 类模型, 均衡了样本数据集中的数据量, 解决了随机采样造成的分类样本不均衡的问题。 [0009]本发明中针对样本不均衡采用自适应的smote采样算法对不同节点进行样本均衡 化, 并结合了数据 清理功能对采样后的样本噪声进 行了清除, 对比方案1针对负样本不均衡 采用了层次聚类的方法, 层次聚类各类簇之 间不能互相交互对象, 忽略了簇间的互联性, 而 且不能解决边界样本集的重叠性。 本发明适配于联邦学习的计算场景需求, 对比方案不针 对联邦学习场景 下的计算。 [0010]对比方案2: [0011]联邦学习下不均衡数据的采样方法与装置 ‑‑‑‑‑‑CN202011135027.3 [0012]该对比发明方案本发明公开了一种联邦学习下不均衡数据的采样方法与装置, 利说 明 书 1/4 页 3 CN 114529014 A 3
专利 一种基于联邦学习的不均衡数据集成学习方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 04:42:29
上传分享
举报
下载
原文档
(417.1 KB)
分享
友情链接
ISO 14145-2 1998 Roller ball pens and refills Part 2 Documentary use (DOC).pdf
ISO 23678-3 2022 Ships and marine technology — Service personnel for the maintenance, thorough examination, operational testing, overhaul and repair of lifeboats and.pdf
ISO 11042-2 1996 Gas turbines — Exhaust gas emission — Part 2 Automated emission monitoring.pdf
ISO 8130-10 2021 Coating powders — Part 10 Determination of deposition efficiency.pdf
ISO 4683-1 1998 Raw sheep skins — Part 1 Descriptions of defects.pdf
ISO TS 18166 2016 Numerical welding simulation — Execution and documentation.pdf
ISO IEC 20000-2 2019 Information technology — Service management — Part 2 Guidance on the application of service management systems.pdf
ISO-IEC 15049 1997 Information technology -- Telecommunications and information exchange between systems -- Private Integrated Services Network -- Specification functional model and information flows .pdf
ISO 14284 2022 Steel and iron — Sampling and preparation of samples for the determination of chemical composition.pdf
ISO 3265-1974Continuous mechanical handling equipment for loose bulk materials. Wagon tipplers handl.pdf
GB-T 33184-2016 地理信息 地理信息权限表达语言.pdf
GB-T 4857.7-2005 包装 运输包装件基本试验 第7部分 正弦定频振动试验方法.pdf
GB-T 22297-2008 纺织机械与附件 染整机器辅助装置 词汇.pdf
GB-T 25299-2010 电阻焊设备 汽车工业中使用的具有两个独立次级线圈的多点焊变压器特殊技术条件.pdf
GB-T 9405-1995 34368kbit-s 正码速调整三次群数字复用设备技术要求和测试方法.pdf
GB-T 3658-2008 软磁材料交流磁性能环形试样的测量方法.pdf
GB-T 17031.1-1997 纺织品 织物在低压下的干热效应 第1部分 织物的干热处理程序.pdf
GB-T 31559-2015 工具柄用1 10锥柄的弹簧夹头 弹簧夹头,锥柄座,螺母.pdf
GB-T 879.4-2018 弹性圆柱销 卷制 标准型.pdf
GB-T 17209-1998 电子设备用机电开关 第2部分 旋转开关分规范.pdf
1
/
3
8
评价文档
赞助2元 点击下载(417.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。