专利针对大规模分布式机器学习的动态调度方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210692287.3 (22)申请日 2022.06.17 (71)申请人北京潞晨科技有限公司地址 100080 北京市海淀区海淀大街34 号8 层801-802室 (72)发明人卞正达　陈巍文　李永彬　柳泓鑫　刘育良　麦思琪　 (74)专利代理机构武汉菲翔知识产权代理有限公司 42284 专利代理师吕小娜 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 9/54(2006.01) (54)发明名称针对大规模分布式机器学习的动态调度方法 (57)摘要本发明公开了针对大规模分布式机器学习的动态调度方法，具体涉及计算资源管理领域，其包括计算节点分配、任务调度和任务迁移分配；所述计算节点分配是在初始化集群时，在一个计算节点启动远程过程调用服务作为调度器，其他的所有节点通过远程过程调用通知调度器将本节点加入调度器进行管理。本发明在任务调度时如发现资源不能满足将要调度任务，可以将正在运行的任务进行迁移，减少正在运行的任务使用的资源，腾出计算资源交给调度的任务进行使用，实现了分布式的动态调度，增加了调度效率，本发明使用两层任务调度策略，减少任务调度的中心负载，利用任务的迁移，提高了资源利用率，减少了任务等待的时间，增加调度效率。权利要求书1页说明书2页附图1页 CN 114911600 A 2022.08.16 CN 114911600 A 1.针对大规模分布式机器学习的动态调度方法，其特征在于，包括计算节点分配、任务调度和任务迁移分配；所述计算节点分配是在初始化集群时，在一个计算节点启动远程过程调用服务作为调度器，其他的所有节点通过远程过程调用通知调度器将本节点加入调度器进行管理；所述任务调度是在调度任务时，当调度器检测到任务较多时，使用远程过程调用服务提交任务至中心任务调度器进行调度；所述任务迁移分配是当有多个任务在排队时，任务调度器检测正在运行的任务，对正在运行的任务判断是否可以进行缩减，对可以缩减的任务进行迁移到更少的节点上运行；当部分资源存在空闲，任务调度器对任务判断是否可以进行扩展，对可以进行扩展的任务进行迁移到更多的节点上运行。 2.根据权利要求1所述的针对大规模分布式机器学习的动态调度方法，其特征在于，在进行任务调度时，可以根据任务的多少动态增加或减少调度器的数量。 3.根据权利要求1所述的针对大规模分布式机器学习的动态调度方法，其特征在于，在进行任务迁移分配时，腾出节点后，将正在排队的任务分配到腾出的节点。权　利　要　求　书 1/1 页 2 CN 114911600 A 2针对大规模分布式机器学习的动态调度方法技术领域 [0001]本发明涉及计算资源管理领域，尤其涉及针对大规模分布式机器学习的动态调度方法。背景技术 [0002]在过去十年，机器学习从图像处理到自然语言等各种领域都取得了令人瞩目的成就。机器学习这种快速的进展得益于以机器学习模型和各种加速平台为基础的硬件和软件系统绑定。 [0003]由于现在的机器学习模型越来越大，为了训练处更好的模型，往往需要在多台机器的成百上千的计算核心上进行训练。而且由于机器学习模型的多种多样，机器训练任务也是各有不同的特点。这种多任务训练模式对计算集群的资源调度带来很大的挑战。 [0004]当前的调度框架有Ray， Ray的实现上使用Redis对计算资源和任务信息进行存储，采用先到先得服务(First Come First Serve)进行调度，而不考虑任务特征，导致任务调度效率低。 Ray将任务调度出去后，在任务执行过程中不在干预任务的执行，任务占有计算资源直到计算结束，这种设计导致多任务情况下任务排队较长，等待时间较久。发明内容 [0005]本发明的目的是为了解决现有技术中存在的当今的调度系统未能针对这种多任务机器学习训练设计出有效的调度策略，现调度系统都是任务执行开始执行时分配资源，任务一直占有资源到任务结束，不能动态的进行任务调度，导致有些任务等待过长的缺点，和调度只有一个调度器在进行调度，造成负载过大的缺点，而提出的针对大规模分布式机器学习的动态调度方法。 [0006]为了实现上述目的，本发明采用了如下技术方案： [0007]针对大规模分布式机器学习的动态调度方法，包括计算节点分配、任务调度和任务迁移分配； [0008]所述计算节点分配是在初始化集群时，在一个计算节点启动远程过程调用服务 (RPC)作为调度器，其他的所有节点通过远程过程调用通知调度器将本节点加入调度器进行管理； [0009]所述任务调度是在调度任务时，当调度器检测到任务较多时，使用远程过程调用服务提交任务至中心任务调度器进行调度； [0010]所述任务迁移分配是当有多个任务在排队时，任务调度器检测正在运行的任务，对正在运行的任务判断是否可以进行缩减，对可以缩减的任务进行迁移到更少的节点上运行；当部分资源存在空闲，任务调度器对任务判断是否可以进行扩展，对可以进行扩展的任务进行迁移到更多的节点上运行。 [0011]本发明进一步设置为：在进行中心任务调度时，可以根据任务的多少动态增加或减少调度器的数量。说　明　书 1/2 页 3 CN 114911600 A 3

专利 针对大规模分布式机器学习的动态调度方法

专利针对大规模分布式机器学习的动态调度方法