全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210623161.0 (22)申请日 2022.06.01 (71)申请人 深圳大学 地址 518060 广东省深圳市南 山区南海大 道3688号 (72)发明人 罗凯靖 孙旭东 康伟建 龙浩  蔡萌  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 杨义 (51)Int.Cl. G06F 9/50(2006.01) G06F 16/27(2019.01) (54)发明名称 数据样本划分方法和系统 (57)摘要 本发明公开了一种数据样本划分方法和系 统, 包括: 主节点获取待划分的原始样本数据集, 确定出原始样本数据集的目标执行单元, 并在分 布式集群的至少一个子节点中确定出目标子节 点, 将原始样本数据集发送至目标子节点; 目标 子节点接收原始样本数据集, 控制对应的目标执 行单元按照目标划分方式对原始样本数据集进 行划分操作, 由划分操作得到的各数据子集组成 目标数据集; 其中, 目标执行单元为用于对原始 样本数据集进行划分处理的执行单元, 目标执行 单元的数量为两个或两个以上, 目标子节点为目 标执行单元所属的子节点。 本发 明实施例的技术 方案, 实现了节省数据处理时间, 提高处理效率 的目的。 权利要求书2页 说明书8页 附图2页 CN 114911626 A 2022.08.16 CN 114911626 A 1.一种数据样本划分方法, 其特 征在于, 包括: 主节点获取待划分的原始样本数据集, 确定出所述原始样本数据集的目标执行单元, 并在分布式集群的至少一个子节点中确定出目标子节点, 将所述原始样本数据集 发送至所 述目标子节点; 所述目标子节点接收所述原始样本数据集, 控制对应的所述目标执行单元按照目标划 分方式对所述原始样本数据集进 行划分操作, 由划分操作得到的各数据子集组成目标数据 集; 其中, 所述目标执行单元为用于对所述原始样本数据集进行划分处理的执行单元, 所 述目标执行单元的数量为两个或两个以上, 所述目标子节点为所述目标执行单元所属的子 节点。 2.根据权利要求1所述的方法, 其特征在于, 所述确定出所述原始样本数据集的目标执 行单元, 包括: 所述主节点确定所述原始样本数据集中的原始数据条数及所述目标数据集的预设的 目标数据条数; 所述主节点基于所述目标数据 条数和所述原始数据 条数, 确定出所述目标执行单元的 目标数量; 所述主节点在所述分布式集群中确定出满足所述目标数量的执行单元作为所述原始 样本数据集的目标 执行单元。 3.根据权利要求2所述的方法, 其特征在于, 所述主节点基于所述目标数据条数和所述 原始数据条 数, 确定出 所述目标 执行单元的目标 数量, 包括: 所述主节点采用所述目标 数据条数除以所述原 始数据条 数, 得到数据倍数值; 所述主节点对所述数据倍数值进行取整操作, 将取整后得到的数值确定为所述目标执 行单元的目标 数量。 4.根据权利要求1所述的方法, 其特征在于, 所述确定出所述原始样本数据集的目标执 行单元, 包括: 所述主节点确定所述分布式集群中各子节点的工作状态; 其中, 所述工作状态包括空 闲状态或忙碌状态; 所述主节点将处于所述空闲状态的子节点中的执行单元确定为用于对所述原始样本 数据集进行划分处 理的目标 执行单元。 5.根据权利要求1所述的方法, 其特 征在于, 还 包括: 所述主节点确定各目标执行单元对应待划分的数据子集的数据量, 并将所述数据量发 送至与所述目标 执行单元对应的目标子节点。 6.根据权利要求5所述的方法, 其特 征在于, 还 包括: 所述目标子节点基于接收到各所述目标执行单元对应的所述数据量, 确定对所述原始 样本数据集的划分参数, 以控制所述目标执行单元按照所述划分参数对所述原始样本数据 集进行划分操作。 7.根据权利要求1所述的方法, 其特征在于, 所述目标划分方式包括自助抽样方式, 所 述控制对应的所述目标执行单元按照目标划分方式对所述原始样本数据集进 行划分操作, 包括:权 利 要 求 书 1/2 页 2 CN 114911626 A 2所述目标子节点控制对应的所述目标执行单元按照所述自助抽样方式对所述原始样 本数据集进行划分操作。 8.根据权利要求7所述的方法, 其特征在于, 数据子集包括按照所述自助抽 样方式对原 始样本数据及进 行划分操作后得到的抽样块; 所述由划分操作得到的各数据子集组成目标 数据集, 包括: 所述目标子节点将所述抽 样块存储至预先建立的分布式文件系统, 以组成所述目标数 据集。 9.根据权利要求1所述的方法, 其特征在于, 所述控制对应的所述目标执行单元按照目 标划分方式对所述原 始样本数据集进行划分操作, 包括: 当所述目标子节点中包括两个或两个以上的目标执行单元时, 所述目标子节点控制各 所述目标 执行单元同时按照目标划分方式对所述原 始样本数据集进行划分操作。 10.一种数据样本划分系统, 其特 征在于, 包括: 主节点和至少一个子节点, 其中, 所述主节点, 用于获取待划分的原始样本数据集, 确定出所述原始样本数据集的目标 执行单元, 并在分布式集群的至少一个子节点中确定出目标子节点, 将所述原始样本数据 集发送至所述目标子节点; 所述目标子节点, 用于接收所述原始样本数据集, 控制对应的所述目标执行单元按照 目标划分方式对所述原始样本数据集进行划分操作, 由划分操作得到的各数据子集组成目 标数据集; 其中, 所述目标执行单元为用于对所述原始样本数据集进行划分处理的执行单元, 所 述目标执行单元的数量为两个或两个以上, 所述目标子节点为所述目标执行单元所属的子 节点。权 利 要 求 书 2/2 页 3 CN 114911626 A 3

.PDF文档 专利 数据样本划分方法和系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据样本划分方法和系统 第 1 页 专利 数据样本划分方法和系统 第 2 页 专利 数据样本划分方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:32:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。