全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210692287.3 (22)申请日 2022.06.17 (71)申请人 北京潞晨科技有限公司 地址 100080 北京市海淀区海淀大街34 号8 层801-802室 (72)发明人 卞正达 陈巍文 李永彬 柳泓鑫  刘育良 麦思琪  (74)专利代理 机构 武汉菲翔 知识产权代理有限 公司 42284 专利代理师 吕小娜 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 9/54(2006.01) (54)发明名称 针对大规模分布式机器学习的动态调度方 法 (57)摘要 本发明公开了针对大规模分布式机器学习 的动态调度方法, 具体涉及计算资源管理领域, 其包括计算节点分配、 任务调度和任务迁移分 配; 所述计算节点分配是在初始化集群时, 在一 个计算节 点启动远程过程调用服务作为调度器, 其他的所有节点通过远程过程调用通知调度器 将本节点加入调度器进行管 理。 本发明在任务调 度时如发现资源不能满足将要调度任务, 可以将 正在运行的任务进行迁移, 减少正在运行的任务 使用的资源, 腾出计算资源交给调度的任务进行 使用, 实现了分布式的动态调度, 增加了调度效 率, 本发明使用两层任务调度策略, 减少任务调 度的中心负载, 利用任务的迁移, 提高了资源利 用率, 减少了任务 等待的时间, 增 加调度效率。 权利要求书1页 说明书2页 附图1页 CN 114911600 A 2022.08.16 CN 114911600 A 1.针对大规模分布式机器学习的动态调度方法, 其特征在于, 包括计算节点分配、 任务 调度和任务迁移分配; 所述计算节点分配是在初始化集群时, 在一个计算节点启动远程过程调用服务作为调 度器, 其他的所有节点 通过远程过程调用通知调度器将本节点加入调度器进行 管理; 所述任务调度是在调度任务时, 当调度器检测到任务较多时, 使用远程过程调用服务 提交任务至中心任务调度器进行调度; 所述任务迁移分配是当有多个任务在排队时, 任务调度器检测正在运行的任务, 对正 在运行的任务判断是否可以进行缩减, 对可以缩减的任务进行迁移到更少的节点上运行; 当部分资源存在空闲, 任务调度器对任务判断是否可以进行扩展, 对可以进行扩展的任务 进行迁移到更多的节点上运行。 2.根据权利要求1所述的针对大规模分布式机器学习的动态调度方法, 其特征在于, 在 进行任务调度时, 可以根据任务的多少动态增 加或减少调度器的数量。 3.根据权利要求1所述的针对大规模分布式机器学习的动态调度方法, 其特征在于, 在 进行任务迁移分配时, 腾出节点后, 将正在排队的任务分配到腾出的节点。权 利 要 求 书 1/1 页 2 CN 114911600 A 2针对大规 模分布式机 器学习的动态调度方 法 技术领域 [0001]本发明涉及计算资源管理领域, 尤其涉及针对大规模分布式机器学习的动态调度 方法。 背景技术 [0002]在过去十年, 机器学习从图像 处理到自然语言等各种领域都取得了令人瞩目的成 就。 机器学习这种快速的进展得益于以机器学习模型和各种加速平台为基础的硬件和软件 系统绑定 。 [0003]由于现在的机器学习模型越来越大, 为了训练处更好的模型, 往往需要在多台机 器的成百上千的计算核心上进行训练。 而且由于机器学习模型的多种多样, 机器训练任务 也是各有不同的特点。 这种多任务训练模式对计算 集群的资源调度带来很大的挑战。 [0004]当前的调度框架有Ray, Ray的实现上使用Redis对计算资源和任务信息进行存储, 采用先到先得服务(First  Come First Serve)进行调度, 而不考虑任务特征, 导致任务调 度效率低。 Ray将任务调度出去后, 在任务执行过程中不在干预任务的执行, 任务占有计算 资源直到计算结束, 这种设计导 致多任务情况 下任务排队较长, 等待时间较久 。 发明内容 [0005]本发明的目的是为了解决现有技术中存在的当今的调度系统未能针对这种多任 务机器学习训练设计出有效的调度策略, 现调度系统都是任务执行开始执行时分配资源, 任务一直占有资源到任务结束, 不能动态的进行任务调度, 导致有 些任务等待过长的缺点, 和调度只有一个调度器在进行调度, 造成负载过大 的缺点, 而提出 的针对大规模分布式机 器学习的动态调度方法。 [0006]为了实现上述目的, 本发明采用了如下技 术方案: [0007]针对大规模分布式机器学习的动态调度方法, 包括计算节点分配、 任务调度和任 务迁移分配; [0008]所述计算节点分配是在初始化集群时, 在一个计算节点启动远程过程调用服务 (RPC)作为调度器, 其他的所有节点通过远程过程调用通知调度器将本节点加入调度器进 行管理; [0009]所述任务调度是在调度任务时, 当调度器检测到任务较多时, 使用远程过程调用 服务提交任务至中心任务调度器进行调度; [0010]所述任务迁移分配是当有多个任务在排队时, 任务调度器检测正在运行的任务, 对正在运行的任务判断是否可以进行缩减, 对可以缩减的任务进 行迁移到更少的节点上运 行; 当部分资源存在空闲, 任务调 度器对任务判断是否可以进 行扩展, 对可以进 行扩展的任 务进行迁移到更多的节点上运行。 [0011]本发明进一步设置为: 在进行中心任务调度时, 可以根据任务的多少动态增加或 减少调度器的数量。说 明 书 1/2 页 3 CN 114911600 A 3

.PDF文档 专利 针对大规模分布式机器学习的动态调度方法

文档预览
中文文档 5 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 针对大规模分布式机器学习的动态调度方法 第 1 页 专利 针对大规模分布式机器学习的动态调度方法 第 2 页 专利 针对大规模分布式机器学习的动态调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:34:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。