专利并行训练中突破内存限制的方法、系统、设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210809408.8 (22)申请日 2022.07.11 (65)同一申请的已公布的文献号申请公布号 CN 114880130 A (43)申请公布日 2022.08.09 (73)专利权人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人于笑颜　李诚　周泉　王海权　吴思　许胤龙　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 专利代理师郑立明　韩珂 (51)Int.Cl. G06F 9/50(2006.01)G06F 15/173(2006.01) G06N 3/04(2006.01) G06N 3/063(2006.01) G06N 3/08(2006.01) 审查员柯露 (54)发明名称并行训练中突破内存限制的方法、系统、设备及存储介质 (57)摘要本发明公开了一种并行训练中突破内存限制的方法、系统、设备及存储介质，应用于分布式深度学习流水线并行训练场景下，包括：剖析模型，规划内存压缩策略，策略评估和生成最佳内存压缩策略，模型训练与内存压缩的集成等步骤。与传统方法相比，本发明计算出训练任务和 GPU之间的最佳映射，以最大限度地利用D2D的性能优势，充分利用系统内存，聚合GP U间多条直连高速链路，获得高倍速通信带宽；而且，本发明混合采用了重新计算、 GP U‑CPU交换，以进一步增加 D2D交换的潜力，使得模型训练能够突破内存限制，从而提高训练效率。权利要求书2页说明书8页附图3页 CN 114880130 B 2022.10.28 CN 114880130 B 1.一种在深度学习并行训练场景下突破内存限制的方法，其特征在于，包括：对目标模型进行若干次迭代计算，获得目标模型在当前系统环境配置下，每个张量的内存占用和使用间隔信息；根据每个张量的内存占用和使用间隔信息，选择使用D2D交换方式、重计算方式或GPU ‑ CPU交换技术生成内存压缩策略，并将相应内存压缩策略集成至目标模型中；如果选择使用 D2D交换，则列举所有的设备映射方式，评估每一设备映射方式下D2D交换性能，选出最优 D2D交换性能对应的设备映射方式作为最优设备映射方式；其中， D2D为设备到设备通信， GPU为图形处理器， CPU为中央处理器；利用集成有内存压缩策略的目标模型，对所述目标模型进行并行训练并触发内存压缩策略；其中，根据每个张量的内存占用和使用间隔信息，选择使用D2D交换方式、重计算方式或GPU‑CPU交换技术生成内存压缩策略包括：使用间隔小于第一设定值，则使用D2D交换，使用间隔大于第二设定值，则使用GPU ‑CPU交换；对于每个张量都进行子块的划分，划分子块时，子块的内存大小小于其他GPU上的空闲内存，或是时间开销大于使用间隔，则选择重计算方式或GPU ‑CPU交换技术；否则，选择D2D交换方式；所述评估每一设备映射方式下D2D交换性能包括：通过数据加权切片，将选定的目标张量划分为多个子块，子块的大小与相应的链接带宽成正比，按照每一设备映射方式，将多个子块通过多个不相干的NVLink链路并行传输，实现将一个GPU设备上的张量交换到多个的 GPU设备上，其中， NVLink为一种总线及其通信协议；评估时，通过建立评分函数评估GPU内存分配的有效性和效率，评分分数越高表示D2D交换性能越好；其中，链接带宽是指直连GPU 设备之间的带宽。 2.根据权利要求1所述的一种在深度学习并行训练场景下突破内存限制的方法，其特征在于，所述对目标模型进行若干次迭代计算，获得目标模型在当前系统环境配置下，每个张量的内存占用和使用间隔信息包括：在当前系统环境配置下，对目标模型进行若干次迭代计算，依照计算顺序，遍历与目标模型中每个模型层相关的张量，读取相关的张量的GPU内存占用大小信息；并在目标模型的前向计算和后向计算时，以张量为粒度，记录时间戳，获得张量的使用间隔。 3.根据权利要求1所述的一种在深度学习并行训练场景下突破内存限制的方法，其特征在于，选择重计算方式或GPU ‑CPU交换技术依据包括：通过进行活变量分析，计算每个张量的活跃间隔，将GPU ‑CPU交换分配给具有活期间隔超过设定阈值的张量；当对一张量采用重计算后引入的时间开销低于GPU ‑CPU交换时，则对相应张量采用重计算的内存压缩策略，再将GPU ‑CPU交换用于剩余的张量；当对一张量采用重计算后引入的时间开销高于GPU ‑CPU交换时，则对相应张量采用GPU ‑CPU交换的内存压缩策略。 4.根据权利要求1所述的一种在深度学习并行训练场景下突破内存限制的方法，其特征在于，该方法还包括：将内存压缩策略集成至目标模型中后，模拟运行集成有内存压缩策略的目标模型，对内存压缩策略进行评估，以确定内存压缩策略是否为最佳内存压缩策略；若不为最佳内存压缩策略，则对内存压缩策略进行优化，直至获得最佳内存压缩策略；将所述最佳内存压缩策略集成至目标模型中，再进行并行训练并触发内存压缩策略。权　利　要　求　书 1/2 页 2 CN 114880130 B 25.根据权利要求1或4所述的一种在深度学习并行训练场景下突破内存限制的方法，其特征在于，对所述目标模型进行并行训练并触发内存压缩策略包括：将集成有内存压缩策略的目标模型作为输入，按照内存压缩策略执行并行训练，即按照内存压缩策略，将没有内存压缩策略的运算符通过底层训练框架执行，有内存压缩策略的运算符通过执行节省内存的操作和恢复状态的操作，执行并行训练过程中，为张量分配和释放GPU设备与CPU设备内存空间，并跟踪每个GPU设备与CPU设备的内存使用情况。 6.根据权利要求1所述的一种在深度学习并行训练场景下突破内存限制的方法，其特征在于，对所述目标模型进行并行训练并触发内存压缩策略的过程中，维护一个元数据表，跟踪经过D2D交换或GPU ‑CPU交换的张量的状态；对于每个张量，在执行卸载操作之前记录如下信息：数据块的数量、每个数据块的大小和目标GPU设备的索引；其中，数据块是张量片段，对张量切片，形成张量片段，用于同时将不同的数据片段发送到不同的GPU上。 7.一种在深度学习并行训练场景下突破内存限制的系统，其特征在于，基于权利要求1 ~6任一项所述的方法实现，该系统包括：剖析器，用于对目标模型进行若干次迭代计算，获得目标模型在当前系统环境配置下，每个张量的内存占用和使用间隔信息；规划者，用于根据每个张量的内存占用和使用间隔信息，选择使用D2D交换方式、重计算方式或GPU ‑CPU交换技术生成内存压缩策略，并将相应内存压缩策略集成至目标模型中；如果选择使用D2D交换，则列举所有的设备映射方式，评估每一设备映射方式下D2D交换性能，选出最优D2D交换性能对应的设备映射方式作为最优设备映射方式；改写器，用于并将内存压缩策略集成至目标模型中；模型训练与内存压缩单元，用于利用集成有内存压缩策略的目标模型，对所述目标模型进行并行训练并触发内存压缩策略。 8.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~6任一项所述的方法。 9.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~6任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114880130 B 3

专利 并行训练中突破内存限制的方法、系统、设备及存储介质

专利并行训练中突破内存限制的方法、系统、设备及存储介质