全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111243076.3 (22)申请日 2021.10.25 (71)申请人 深圳华中科技大 学研究院 地址 518000 广东省深圳市南 山区粤兴三 道9号华中科技大学深圳产学研基地 大楼 (72)发明人 伍冬睿 赵昶铭 (74)专利代理 机构 武汉知产时代知识产权代理 有限公司 42 238 代理人 郝明琴 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于集成学习的机器学习模型调整方 法及设备 (57)摘要 本发明涉及一种基于集成学习的机器学习 模型调整方法及设备, 方法包括以下步骤: 构建 初始分类模型; 所述初始分类模型, 为机器学习 模型; 采用BF方法对所述初始分类模型进行k轮 迭代调整, 降低初始分类模型的偏差; 采用BBF方 法对初始分类模 型进行多次调整, 降低初始分类 模型的方差; 对多次调整进行平均输出, 最终得 到调整后的分类模型; 设备用于实现方法。 本发 明有益效果是: 提升了机器学习模型的性能, 能 够在数据量不大的, 图像目标分类问题上更好的 进行分类, 解决了单一模型在这些数据集上容易 过拟合的问题, 从而提升目标分类的精度。 权利要求书1页 说明书4页 附图3页 CN 114065840 A 2022.02.18 CN 114065840 A 1.一种基于集成学习的机器学习模型调整方法, 其特 征在于: 包括以下步骤: S101: 构建初始分类模型; 所述初始分类模型, 为机器学习模型; S102: 采用BF 方法对所述初始分类模型进行k轮迭代调整, 降低初始分类模型的偏差; S103: 采用BBF方法对初始分类模型进行多次调整, 降低初始分类模型的方差; S104: 对步骤S10 3中的多次调整 进行平均输出, 最终得到调整后的分类模型。 2.如权利要求1所述的一种基于集成学习的机器学习 模型调整方法, 其特征在于: 步骤 S102中, 所述 k轮迭代调整, 具体为: S201: 随机生成一个矩阵W1, 将原始特征进行随机映射, 并将映射后的特征输入至激活 函数δ, 得到 H1= δ[z(X,W1)]; 其中z()表示归一 化操作; X表示输入的原 始特征; S202: 将训练集D输入至所述初始分类模型, 得到样本 权重B1和伪标签 S203: 将H1、 样本权重B1和伪标签 输入至一个BF学习器的第一基学习器L1, 得到样本权 重B2和伪标签 所述一个BF学习器, 包括 k个基学习器, 分别为 L1‑Lk; S204: 进入第二轮迭代, 随机生成一个矩阵W2, 并将H2=δ[z(X,W2)]、 样本权重B2和伪标 签 输入至BF 学习器的第二基学习器L2, 得到样本 权重B3和伪标签 S205: 延续步骤S203~204, 直至迭代k轮, 将Hk=δ[z(X,Wk)]、 样本权重Bk和伪标签 输 入值第k基学习器Lk; S206: 将初始模型、 k个基学习器L1‑Lk的输出进行求合, 得到降低初始分类模型的偏差 后的输出 结果。 3.如权利要求2所述的一种基于集成学习的机器学习 模型调整方法, 其特征在于: 步骤 S103中, 所述多次调整, 具体指: 在步骤S102中, 仅对一个BF学习 器进行, 而多次调整时, 再 对k个不同的BF 学习器进行训练, 再输出k个不同的BF 学习器的输出平均值。 4.如权利要求3所述的一种基于集成学习的机器学习模型调整方法, 其特征在于: 对k 个不同的BF学习器进行训练时, 从训练集D中随机生成k个 不同的训练子集D1‑Dk, 对应为k个 不同的BF 学习器训练。 5.一种基于集成学习的机器学习 模型调整设备, 其特征在于: 包括处理器及存储设备; 所述处理器加载并执行存储设备中的指令及数据用于实现权利要求1~4所述的任意一种 基于集成学习的机器学习模型调整方法。权 利 要 求 书 1/1 页 2 CN 114065840 A 2一种基于集成学习的机 器学习模型调整方 法及设备 技术领域 [0001]本发明涉及机器学习领域, 尤其涉及一种基于集成学习的机器学习模型调整方法 及设备。 背景技术 [0002]随着互联 网、 云计算、 大数据等关键技术的快速发展, 人工智能技术正在深刻地改 变着人们的生活, 推动 着社会方方面面的变革, 例如金融、 娱乐、 教育、 医疗、 社 交等领域。 机 器学习是人工智能的重要组成部分, 旨在从大量数据中学习 数据之间的潜在关系, 具有巨 大的业务挖掘潜力。 其中许多算法已经渗透到人工智能的各个分支, 包括自动驾驶、 推荐系 统、 人脸识别、 自然语言处 理等。 [0003]集成学习在机器学习和模式识别中具有重要的地位, 其在各大互联网公司的业务 实践及机器学习相关比赛中都取 得了巨大的成功, 被称为机器学习领域的 “常青树”。 [0004]传统的机器学习方法大多使用单一的模型输出预测结果, 例如: 支持向量机 (support vector machine,SVM), SVM的基本思想是求解 能够正确划分训练数据集并且几 何间隔最大的分离超平面; 正则化逻辑回归(regularized logistic regression,RLR), RLR的基本思想是最小化输出概率与标签的交叉熵损失, 并且通过约束模型 的线性系数 的 二范数防止过拟合; 岭回归(ridge regression,RR), RR的基本思想是最小化输出与标签的 平方误差, 并且也通过约束模型线性系 数的二范数防止过拟合。 而集成学习构建多个不同 的基学习器, 然后通过一定的策略将它们融合起来, 以得到一个泛化性能更强的学习器。 集 成学习的相关理论指出, 当各基学习器之间相关性较低, 且各基学习器性能都比较可靠时, 集成之后会获得更好的性能。 集成学习中最具代表性的两类方法是Boosting和Bagging。 Boosting采用 增量式的学习过程, 其中每个基学习器都在现有模型的基础上进行学习, 然 后将新学习器加入现有模型中。 现有LogitBoost算法, LogitBoost是一种代表性的 Boosting方法, 它将分类问题分解为多个回归问题, 然后迭代 地优化它们, 新生 成的学习器 会更关注被之前学习器分错的样本。 Boosting擅长集成弱 学习器(偏差较大的学习器), 从 而降低模 型的偏差。 Bagging算法并行地训练多个不同的基学习器, 通过投票 或取均值的方 式获得输出。 Ba gging擅长集成不稳定的学习器(方差大的学习器), 从而降低模型的方差 。 [0005]机器学习领域的经典方法, 如支持向量机(SVM)、 正则化逻辑回归(RLR)、 岭回归 (RR)等使用单一的模型输出预测结果。 它们属于偏差小且方差大的学习器, 在诸多场景中 表现优异, 但仍然存在明显的局限性。 一方面, 它们仅使用单一的模型输出预测结果, 存在 异常值敏感、 泛化误差较大的问题, 许多案例表明: 集成多个学习器的输出比使用单个学习 器的输出能取得更好的泛化性能。 另一方面, 由于它们的拟合性能比弱学习器好, 仅使用单 个模型的偏差已经比较小, 简单使用Boosting算法集成容易造成过拟合, 所以不适合使用 Boosting将它们进行集成; 但是, 如果使用Bagging将它们进行集成, 因为它们单个学习 器 比较稳定, 所以仅通过Ba gging引入样本多样性并不能很好 地提升集成模型的泛化 性能。 [0006]传统的模型调整的方法主要应用在神经网络里, 由于神经网络通过梯度下降更新说 明 书 1/4 页 3 CN 114065840 A 3
专利 一种基于集成学习的机器学习模型调整方法及设备
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 19:00:02
上传分享
举报
下载
原文档
(536.8 KB)
分享
友情链接
ISO IEC TS 17021-7 2014 Conformity assessment — Requirements for bodies providin.pdf
ISO 13640 2018 Buildings and civil engineering works Sealants Specifications for test substrates.pdf
ISO 5-4 2009 Photography and graphic technology — Density measurements — Part 4 Geometric conditions for reflection density.pdf
ISO TR 20520 2018 Traditional Chinese medicine — Infection control for acupuncture t.pdf
ISO 6898 1984 Open front mechanical power presses — Capacity ratings and dimensions.pdf
ISO 1839:1980 Tea - Sampling.pdf
ISO IEC 14496-33 2019 Information technology — Coding of audio-visual objects — Part 33 Internet video coding.pdf
ISO 8733 1997 Parallel pins with internal thread of unhardened steel and austenitic stainless steel.pdf
ISO 17266 2018 Cinematography — Multichannel analogue and digital photographic sound and control records on 35 mm motion-picture prints and negatives, and digital sound-control records on.pdf
ISO IEC 7816-8 2021 Identification cards — Integrated circuit cards — Part 8 Commands and mechanisms for security operations.pdf
GB-T 28772-2012 内燃机油分类.pdf
GB-T 17626.1-2006 电磁兼容 试验和测量技术 抗扰度试验总论.pdf
GB-T 20703-2006 船舶电气装置 取暖和烹调电器.pdf
GB-T 39352-2020 空间数据与信息传输系统 邻近空间链路协议 数据链路层.pdf
GB-T 27025-2019 检测和校准实验室能力的通用要求.pdf
GB 11555-2009 汽车风窗玻璃除霜和除雾系统的性能和试验方法.pdf
GB-T 32424-2015 系统与软件工程 用户文档的设计者和开发者要求.pdf
GB-T 23602-2009 钛及钛合金表面除鳞和清洁方法.pdf
GB-T 2793-1995 胶粘剂不挥发物含量的测定.pdf
GB-T 40374-2021 硬质合金化学分析方法 铅量和镉量的测定 火焰原子吸收光谱法和电感耦合等离子体原子发射光谱法.pdf
1
/
3
9
评价文档
赞助2元 点击下载(536.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。