全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211146915.4 (22)申请日 2022.09.21 (71)申请人 深圳大学 地址 518000 广东省深圳市南 山区粤海街 道南海大道3 688号 (72)发明人 尹剑飞 陈海彬 黄哲学 胡牧洲  (74)专利代理 机构 深圳市世纪恒程知识产权代 理事务所 4 4287 专利代理师 袁雪 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) (54)发明名称 适合大数据机器学习算法的超参数调优方 法、 系统与介质 (57)摘要 本发明公开了一种适合大数据机器学习算 法的超参数调优 方法、 系统与介质, 该方法包括: 获取大数据集, 根据大数据集中基于聚类的统计 特征, 自动估计出所需的RSP块的数量和每个RSP 块的记录数, 以得到由所述数量的RSP块组成的 近似大数据集的小样本数据集; 接收待调参的机 器学习算法及其超参数集合, 根据小样本数据集 中的RSP块和待调参的机器学习算法, 对超参数 集合进行调优操作, 以确定每个超参数的最佳取 值。 根据每个RSP块的记录数和 RSP块的数量, 将 大数据集划分为RSP块的集合, 使用少量RSP块完 成超参数调优, 本发明避免了因大数据集采样不 能满足数据独立同分布和采样充分性所导致的 超参调优偏差和误差, 提高了超参调优的无偏 性、 精确度、 可靠性和执 行效率。 权利要求书2页 说明书12页 附图2页 CN 115238907 A 2022.10.25 CN 115238907 A 1.一种适合大数据机器学习算法的超参数调优方法, 其特征在于, 所述适合大数据机 器学习算法的超参数调优方法包括如下步骤: 获取大数据集, 根据所述大数据集中基于聚类的统计特征, 自动估计出所需的RSP块的 数量和每个RSP块的记录数, 以得到由所述数量的RSP块组成的近似所述大数据集的小样本 数据集; 接收待调参的机器学习算法及其超参数集合, 根据所述小样本数据集中的RSP块和所 述待调参的机器学习算法, 对所述超参数集合进行调优操作, 以确定每个超参数 的最佳取 值。 2.如权利要求1所述的适合大数据机器学习算法的超参数调优方法, 其特征在于, 所述 根据所述大数据集中基于聚类的统计特征, 自动估计出所需的RSP块的数量和每个RSP块的 记录数的步骤 包括: 根据所述大数据集中基于聚类的统计特征, 计算出RSP块的记录数的下界值和上界值, 根据所述下界值和所述上界值, 自动估计出每 个RSP块的记录数; 根据所述大数据集中基于聚类的统计特征, 计算出RSP块的数量的误差下界和误差上 界, 根据所述 误差下界和所述 误差上界, 自动估计出 所需的RS P块的数量。 3.如权利要求2所述的适合大数据机器学习算法的超参数调优方法, 其特征在于, 所述 大数据集中基于聚类的统计特征包括: 数据类别数量、 数据维度、 量化误差和置信概率, 所 述根据所述大数据集中基于聚类的统计特征, 计算出RSP块的记录数的下界值和上界值的 步骤包括: 获取并根据大数据集中的所述数据类别数量、 所述数据维度、 所述量化误差和所述置 信概率, 计算出RS P块的记录数的下界值; 在所述大数据集中随机抽取预设数量的数据, 得到第 一数据子集, 并根据对称化原理, 在所述大 数据集中抽取与所述大 数据集对称的第二数据子集; 确定所述第 一数据子集和所述第 二数据子集的相似度, 并根据 所述相似度和所述下界 值确定上界值。 4.如权利要求3 中所述的适合大数据机器学习算法的超参数调优方法, 其特征在于, 所 述根据所述相似度和所述下界值确定上界值的步骤 包括: 将所述相似度与相似度阈值进行对比, 得到第一对比结果; 若所述第一对比结果为所述相似度不小于所述相似度阈值, 则获取所述第 一数据子集 中的样本数量, 并将所述样本数量与所述下界值进行对比, 得到第二对比结果; 若所述第二对比结果为所述样本数量大于所述下界值, 则根据 所述样本数量确定上界 值。 5.如权利要求1所述的适合大数据机器学习算法的超参数调优方法, 其特征在于, 所述 根据所述小样本数据集中的RSP块和所述待调参的机器学习算法, 对所述超参数集合进行 调优操作, 以确定每 个超参数的最佳 取值的步骤 包括: 根据预设规则, 在所述小样本数据集中选取对应的RSP块集合和在所述超参数集合中 选取对应的超参数, 并通过主控节 点并将所述 RSP块集合、 所述超参数和所述待调参的机器 学习算法下发到对应的工作节点中; 通过所述工作节点根据所述RSP块集合、 所述超参数和所述待调参的机器学习算法对权 利 要 求 书 1/2 页 2 CN 115238907 A 2所述超参数集合进 行调优操作, 得到调优结果, 并通过所述主控节 点根据所述调优结果, 确 定所述超参数集 合中每个超参数的最佳 取值。 6.如权利要求5所述的适合大数据机器学习算法的超参数调优方法, 其特征在于, 所述 通过所述主控节点根据所述调优结果, 确定所述超参数集合中每个超参数的最佳取值的步 骤包括: 通过所述主控节点根据 所述调优结果, 确定所述超参数集合中每个超参数对应的得分 值, 根据所述得分值对所述超参数集 合中每个超参数进行排序, 得到排序结果; 根据所述排序结果, 确定待确定目标超参数集合, 并确定所述待确定目标超参数集合 对应的密度峰值, 根据所述密度峰值, 确定每 个超参数的最佳 取值。 7.如权利要求1所述的适合大数据机器学习算法的超参数调优方法, 其特征在于, 所述 接收待调参的机器学习算法及其超参数集合, 根据所述小样本数据集中的RSP块和所述待 调参的机器学习算法, 对所述超参数集合进行调优操作, 以确定每个超参数 的最佳取值的 步骤之后, 所述 适合大数据机器学习算法的超参数调优方法包括: 根据每个超参数的最佳取值对所述待调参的机器学习算法进行调参操作, 得到目标机 器学习算法。 8.一种适合大数据机器学习算法的超参数调优系统, 其特征在于, 所述适合大数据机 器学习算法的超参数调优系统包括: 数据服务层; 工作层; 调度层; 所述数据服务层用于获取大数据集和接收待调参的机器学习算法及其超参数集合, 并 将所述大 数据集、 所述待调参的机器学习算法和所述超参数集 合进行储 存; 所述工作层中包括工作节点, 所述工作节点用于根据大数据集中基于聚类的统计特 征, 自动估计出所需的RSP块的数量和每个RSP块的记录数, 以得到由所述数量的RSP块组成 的近似大数据集的小样本数据集, 以及根据小样本数据集中的RSP块和待调参的机器学习 算法, 对超参数集 合进行调优操作, 以确定每 个超参数的最佳 取值; 所述调度层包括主控节点, 所述主控节点用于将所述大数据集、 所述待调参的机器学 习算法和所述超参数集 合发送到所述工作层对应的所述工作节点中。 9.如权利要求8所述的适合大数据机器学习算法的超参数调优系统, 其特征在于, 所述 数据服务层, 还用于存储 所述小样本数据集中的RSP块, 和/或将所述小样 本数据集中的RSP 块分别存 储在所述工作节点中。 10.一种介质, 其特征在于, 所述介质为计算机可读存储介质, 所述计算机可读存储介 质上存储有超参数调优程序, 所述超参数调优程序被处理器执行时实现如权利要求 1至7中 任一项所述的适 合大数据机器学习算法的超参数调优方法的步骤。权 利 要 求 书 2/2 页 3 CN 115238907 A 3

.PDF文档 专利 适合大数据机器学习算法的超参数调优方法、系统与介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 适合大数据机器学习算法的超参数调优方法、系统与介质 第 1 页 专利 适合大数据机器学习算法的超参数调优方法、系统与介质 第 2 页 专利 适合大数据机器学习算法的超参数调优方法、系统与介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:14:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。