全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111669828.2 (22)申请日 2021.12.3 0 (71)申请人 天翼电子商务有限公司 地址 100037 北京市西城区阜成门外大街 31号4层429D (72)发明人 孙从阳 徐明成 侯金鑫 张小虎 (51)Int.Cl. G06N 20/20(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于特征表示和 噪声过滤的不平衡集 成学习方法 (57)摘要 本发明公开了一种基于特征表示和噪声过 滤的不平衡集成学习方法, 它涉及数据挖掘技术 领域。 其步骤为: 初始化映射矩阵, 随机采样训练 基分类器; 特征表示学习, 最近邻类别平均分类 器和集成分类器同时参与训练, 学习映射矩阵; 根据样本损失进行采样和模型训练集成; 噪声 过 滤, 根据样本损失和特征空间距离确定噪声; 重 复特征表示学习、 采样和模型训练集成、 噪声过 滤, 输出训练模型。 本发明提高不平衡学习的性 能, 有效避免了过度拟合离群点而导致恶化分类 器效果的结果, 提升采样和模型训练效果, 采用 解耦合和集成的方式, 有效提升预测 效果, 应用 前景广阔。 权利要求书2页 说明书5页 附图4页 CN 114548427 A 2022.05.27 CN 114548427 A 1.一种基于特 征表示和噪声过 滤的不平衡集成学习方法, 其特 征在于, 其 步骤为: (1)初始化映射矩阵, 随机采样训练基分类 器; (2)特征表示学习, 最近邻类别平均分类器和集成分类器同时参与训练, 学习 映射矩 阵; (3)根据样本损失进行采样和模型训练集成; (4)噪声过 滤, 根据样本损失和特 征空间距离确定噪声; (5)重复步骤(2) ‑(4), 输出训练模型。 2.根据权利要求1所述的一种基于特征表示和噪声过滤的不平衡集成学习方法, 其特 征在于, 所述 步骤(1)初始化映射矩阵和分类 器的具体步骤: ①设样本集为O, 样本特征数目为n, 映射后特征数目为m, 映射矩阵为W∈Rn×m, 矩阵元素 默认均值 为0, 标准差为 的正态分布随机值; ②设少数类P, 多数类Q, 少数类P上采样倍数γ, 少数类P随机上采样为数据集P', 多数 类Q随机下采样为数据集Q', 有|P'|=γ|P|, |Q'|=|P'|; 设训练的基分类器为BC, 这些基 分类器为SVM、 LR、 C4.5或NN基本模型, 利用数据集P'和Q'训练BC, 得到训练好的模型f, 设分 类器集成模型为F=f。 3.根据权利要求1所述的一种基于特征表示和噪声过滤的不平衡集成学习方法, 其特 征在于, 所述 步骤(2)特 征表示学习的具体步骤: ①对于样本x∈O, 经过特征映射矩阵W作用后为xe=xW, 由这些样本组成的样本集为Oe, 采用两种分类 器训练进行 特征表示的学习; ②基于最近邻思想, 相同特征空间下类别一致的样本越相近, 类别不一致的样本越相 远, 进而第一个分类器采用最近邻类别平均分类器(NCM), 首先分别计算训练集上每个类P 和Q的平均特征表示μP和μQ, 即 通过最大化目标函数 即 d(x, y)=(x ‑μy)T(x‑μy) 来学习一个比较好的特 征表示空间, 使得类间距离变大, 类内距离变小; ③由于在特征表示学习的同时还要兼顾最终分类效果, 所以第 二个分类器采用集成模 型F, 计算并最大化似然对数函数 ④为了使得两个分类器能同时参与训练, 并且更侧重第一个分类器训练, 最终的目标 函数设为K=β G+(1 ‑β )H, 通过最大化 函数K学习出特征表示, 即映射矩阵W。 4.根据权利要求1所述的一种基于特征表示和噪声过滤的不平衡集成学习方法, 其特 征在于, 所述 步骤(3)采样模型 学习的具体步骤:权 利 要 求 书 1/2 页 2 CN 114548427 A 2①设集成模型F在样本x∈O的损失为Lx, 计算多数类Q中的样本损失比率 少数类P中的样本损失比率 那么多数类Q根据损失比 率rL, x∈Q加权下采样得到 Q', 少数类P根据权重rL, x∈Q加权上采样得到P', 使得|P'|=γ|P|, | Q'|=|P'|, 最终基分类 器BC的训练数据集O'= Q'∪P'; ②利用数据集O', 经映射矩阵W作用后, 训练BC, 得到训练好的模型f, 基分类器的集成 模型更新为F=F+f。 5.根据权利要求1所述的一种基于特征表示和噪声过滤的不平衡集成学习方法, 其特 征在于, 所述 步骤(4)噪声过 滤的具体步骤: ①样本x∈O经 经映射矩阵W作用后得到样本xe, 这里仍用x来表示; ②计算集成模型F在样本x∈O的损失为Lx, 分别对少数类P和多数类Q的样本按照损失进 行从大到小排序, 得到样本损失序列{Psorted}和{Qsorted}; 对于多数类Q, 选取每个样本损失 序列的前10%, 得到分类困难样本集 对于少数类P, 如上操作, 得到分 类困难样本集 ③对于多数类样本x∈Q, 计算x与Q的平均特征μQ的距离, 即距心距离dx∈Q=d(x, Q)= (x‑μQ)T(x‑μQ), 再计算所有的样本x∈Q的距心距离的平均值dQ和标准差σQ, 假设dx∈Q服从正 态分布 于少数类P, 如上操作, 得到x与P的平均特征μp的距离dx∈P, 平均值dP 和标准差σP; 于是, 对于x∈O, 若x的距心距离与距心平均距离的差值大于2倍的距心半径标 准差, 即|dx‑dy|>2σy, 那么将此类离群样本记为S; ④对于分类困难样本集Qhard和Phard, 分别与离群样本集S取交集, 得到噪声样本集Qnoise 和Pnoise, 即Qnoise=Qhard∩S, Pnoise=Phard∩S; 多数类Q和少数类P分别过滤掉噪声样本集 Qnoise和Pnoise, 得到新的多数类Q和少数类P以及新的训练集O。 6.根据权利要求1所述的一种基于特征表示和噪声过滤的不平衡集成学习方法, 其特 征在于, 所述步骤(5)输出训练模型: 重复步骤(2)到(4), 若样本集不再更新, 则略过步骤 (4); 若集 成模型F的样本损失连续t轮不再下降, 则集 成模型F退出训练过程, 最 终通过得到 特征映射矩阵W和模型 F。权 利 要 求 书 2/2 页 3 CN 114548427 A 3
专利 一种基于特征表示和噪声过滤的不平衡集成学习方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 04:42:26
上传分享
举报
下载
原文档
(962.8 KB)
分享
友情链接
ISO 13281-2 2000 Industrial automation systems and integration — Manufacturing Automation Programming Environment (MAPLE) — Part 2 Services and interfaces.pdf
ISO 13216-3 2018 Road vehicles Anchorages in vehicles and attachments to anchorages for child restraint systems Part 3 Classification of child restraint system and space in vehicle.pdf
ISO 9349 2017 Ductile iron pipes, fittings, accessories and their joints — Thermal preinsulated products.pdf
ISO 22477-10 2016 Geotechnical investigation and testing Testing of geotechnical structures Part 10 Testing of piles rapid load testing.pdf
ISO 13041-1 2020 Test conditions for numerically controlled turning machines and turning centres — Part 1 Geometric tests for machines with horizontal workholding spindle(s).pdf
ISO IEC 29192-6 2019 Information technology — Lightweight cryptography — Part 6 Message authentication codes (MACs).pdf
ISO 20942 2019 Leather — Full chrome upper leather — Specification and test methods.pdf
ISO 29993 2017 Learning services outside formal education — Service requirements.pdf
ISO 13431 2024 Geotextiles and geotextile-related products Determination of tensile creep and creep rupture behaviour.pdf
ISO 1014 2021 Coke — Determination of true relative density, apparent relative densit.pdf
GB-T 13866-1992 振动与冲击测量 描述惯性式传感器特性的规定.pdf
GB-T 5858-1997 重载传动用弯板滚子链和链轮.pdf
GB-T 623-2011 化学试剂 高氯酸.pdf
GB-T 22454-2008 企业集成 企业建模构件.pdf
GB-T 2900.96-2015 电工术语 计算机网络技术.pdf
GB-T 43593-2023 铁氧体磁心 有气隙磁心的标准电感因数及其公差.pdf
GB-T 6694-1998 氰戊菊酯原药.pdf
GB-T 44035-2024 影像材料 彩色照片 户外影像稳定性的评价方法.pdf
GB-T 3804-2017 3.6 kV~40.5 kV高压交流负荷开关.pdf
GB-T 3965-2012 熔敷金属中扩散氢测定方法.pdf
1
/
3
12
评价文档
赞助2元 点击下载(962.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。