专利面向大规模GPU集群的分布式局部随机梯度下降方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210749875.6 (22)申请日 2022.06.28 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人董德尊　于恩达　王子聪　吴利舟　 (74)专利代理机构北京丰浩知识产权代理事务所(普通合伙) 11781 专利代理师李强 (51)Int.Cl. G06F 9/50(2006.01) (54)发明名称面向大规模GPU集群的分布式局部随机梯度下降方法 (57)摘要本发明公开了一种面向大规模GPU集群的分布式局部随机梯度下降方法，其利用参数服务器和计算节点来实现，本方法首先利用本地权重在计算节点计算本地梯度，并对相邻几次迭代产生的本地梯度进行平均计算，之后利用产生的平均梯度对本地权重进行更新，并将各个计算节点的平均梯度推送给服务器进行聚合，聚合后的梯度将对全局权重进行更新，在全局权重完成更新前，计算节点会利用本地权重继续进行本地训练，在全局权重更新完毕后，将全局权重拉取到计算节点，替换掉原有的本地权重参与训练。本方法采用了独特的梯度平均机制和本地更新机制来解决分布式训练通信瓶颈问题，具有速度快精度高的优点。权利要求书2页说明书7页附图4页 CN 115129471 A 2022.09.30 CN 115129471 A 1.一种面向大规模GPU集群的分布式局部随机梯度下降方法，其特征在于，其利用参数服务器和计算节点来实现；计算节点用于进行本地梯度以及本地权重的计算；参数服务器用于接收并聚合所有的计算节点发送的梯度信息并进行全局权重更新；参数服务器与计算节点之间的数据交互采用一个参数服务器与多个计算节点相通信的模式。 2.如权利要求1所述的面向大规模GPU集群的分布式局部随机梯度下降方法，其特征在于，其具体步骤包括： S1，在计算节点设置本地权重更新器； S2，在每次迭代中，计算节点利用本地权重，计算每次迭代训练的本地梯度，第j个计算节点在第i次迭代训练中的本地梯度值Gradi,j的计算公式为：其中，表示第j个计算节点在第i次迭代训练使用的本地权重， grad_cal为用于本地梯度计算的函数， N为计算节点的个数；对于本地梯度值Gradi,j的计算，利用本地权重和输入到第j个计算节点的样本特征Xj来计算得到第j个计算节点的预测结果Yj’，由预测结果Yj’和第j个计算节点的标签Yj计算出损失值loss，再对损失值loss求导，即得到第j 个计算节点的在第i次迭代训练时的本地梯度值Gradi,j； S3，在本地权重更新器中建立梯度变量，第j个计算节点的本地权重更新器所建立的梯度变量为对于每个计算节点，利用每次迭代训练中所计算得到的本地梯度值 Gradi,j，与梯度变量相加，得到更新后的梯度变量； S4，在每个计算节点执行k次迭代训练后的首次迭代训练中，所有的计算节点之间进行一次参数同步，将该执行参数同步的迭代训练命名为通信迭代，如果当前迭代训练是通信迭代，则执行步骤S5,否则执行步骤S6； S5,每个计算节点对其梯度变量执行平均操作，对于第j个计算节点的梯度变量其平均操作的计算公式为：用平均操作后得到的梯度变量参与本地权重的更新过程，得到更新后的本地权重更新过程的计算公式为：其中η是超参数学习率，将所有计算节点的平均操作后得到的梯度变量发送给参数服务器，参数服务器收集到来自各个计算节点的梯度变量后，更新全局权重Wl，更新全局权重的公式为：权　利　要　求　书 1/2 页 2 CN 115129471 A 2其中η是超参数学习率， N 为计算节点个数； S6,执行步骤S1和步骤S2，在每次通信迭代之后的第2次迭代训练，参数服务器将全局权重Wl发送到所有工作节点，所有工作节点利用全局权重 Wl对其本地权重分别进行更新，更新公式为：重复执行步骤S4若干次后，得到最终收敛的本地权重和全局权重。 3.如权利要求2所述的面向大规模GPU集群的分布式局部随机梯度下降方法，其特征在于，所述的本地权重更新器用于利用本地权重进行本地梯度计算。权　利　要　求　书 2/2 页 3 CN 115129471 A 3

专利 面向大规模GPU集群的分布式局部随机梯度下降方法

专利面向大规模GPU集群的分布式局部随机梯度下降方法