全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210809408.8 (22)申请日 2022.07.11 (65)同一申请的已公布的文献号 申请公布号 CN 114880130 A (43)申请公布日 2022.08.09 (73)专利权人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 于笑颜 李诚 周泉 王海权  吴思 许胤龙  (74)专利代理 机构 北京凯特来知识产权代理有 限公司 1 1260 专利代理师 郑立明 韩珂 (51)Int.Cl. G06F 9/50(2006.01)G06F 15/173(2006.01) G06N 3/04(2006.01) G06N 3/063(2006.01) G06N 3/08(2006.01) 审查员 柯露 (54)发明名称 并行训练中突破内存限制的方法、 系统、 设 备及存储介质 (57)摘要 本发明公开了一种并行训练中突破内存限 制的方法、 系统、 设备及存储介质, 应用于分布式 深度学习流水线并行训练场景下, 包括: 剖析模 型, 规划内存压缩策略, 策略评估和生成最佳内 存压缩策略, 模型训练与内存压缩的集成等步 骤。 与传统方法相比, 本发明计算出训练任务和 GPU之间的最佳映射, 以最大限度地利用D2D的性 能优势, 充分利用系统 内存, 聚合GP U间多条直连 高速链路, 获得高倍速通信带宽; 而且, 本发明混 合采用了重新计算、 GP U‑CPU交换, 以进 一步增加 D2D交换的潜力, 使得模型训练能够突破内存限 制, 从而提高训练效率。 权利要求书2页 说明书8页 附图3页 CN 114880130 B 2022.10.28 CN 114880130 B 1.一种在深度学习并行训练场景 下突破内存限制的方法, 其特 征在于, 包括: 对目标模型进行若干次迭代计算, 获得目标模型在当前系统环境配置下, 每个张量的 内存占用和使用间隔信息; 根据每个张量的内存占用和使用间隔信息, 选择使用D2D交换方式、 重计算方式或GPU ‑ CPU交换技术生 成内存压缩策略, 并将相应内存压缩策略集 成至目标模 型中; 如果选择使用 D2D交换, 则列举所有的设备映射方式, 评估每一设备映射方式下D2D交换性能, 选出最优 D2D交换性能对应的设备映射方式作为最优设备映射方式; 其中, D2D为设备到设备通信, GPU为图形处 理器, CPU为中央处 理器; 利用集成有内存压缩策略的目标模型, 对所述目标模型进行并行训练并触发内存压缩 策略; 其中, 根据每个张量的内存占用和使用间隔信息, 选择使用D2D交换方式、 重计算方式 或GPU‑CPU交换技术生 成内存压缩 策略包括: 使用间隔小于第一设定值, 则使用D2D交换, 使 用间隔大于第二设定值, 则使用GPU ‑CPU交换; 对于每个张量都进行子块的划分, 划分子块 时, 子块的内存大小小于其他GPU上的空闲内存, 或是时间开销大于使用间隔, 则选择重计 算方式或GPU ‑CPU交换技 术; 否则, 选择D2D交换 方式; 所述评估每一设备映射方式下D2D交换性能包括: 通过数据加权切片, 将选定的目标张 量划分为多个子块, 子块的大小与相应的链接带宽成正比, 按照每一设备映射方式, 将多个 子块通过多个不相干的NVLink链路并行传输, 实现将一个GPU设备上的张量交换到多个的 GPU设备上, 其中, NVLink为一种总线及其通信协议; 评估时, 通过建立评分函数评估GPU内 存分配的有效性和效率, 评 分分数越高表 示D2D交换性能越好; 其中, 链接带宽是指直连GPU 设备之间的带宽 。 2.根据权利要求1所述的一种在深度学习并行训练场景下突破内存限制的方法, 其特 征在于, 所述对目标模型进 行若干次迭代计算, 获得目标模型在当前系统环境配置下, 每个 张量的内存占用和使用间隔信息包括: 在当前系统环境配置下, 对目标模型进行若干次迭代计算, 依照计算顺序, 遍历与目标 模型中每个模 型层相关的张量, 读取相关的张量的GPU内存占用大小信息; 并在目标模型的 前向计算和后向计算时, 以张量 为粒度, 记录时间戳, 获得张量的使用间隔。 3.根据权利要求1所述的一种在深度学习并行训练场景下突破内存限制的方法, 其特 征在于, 选择重计算方式或GPU ‑CPU交换技 术依据包括: 通过进行活变量分析, 计算每个张量的活跃间隔, 将GPU ‑CPU交换分配给具有活期间隔 超过设定阈值的张量; 当对一张量采用重计算后引入的时间开销低于GPU ‑CPU交换时, 则对 相应张量采用重计算的内存压缩 策略, 再将GPU ‑CPU交换用于剩余的张量; 当对一张量采用 重计算后引入的时间开销高于GPU ‑CPU交换时, 则对相应张量采用GPU ‑CPU交换的内存压缩 策略。 4.根据权利要求1所述的一种在深度学习并行训练场景下突破内存限制的方法, 其特 征在于, 该方法还包括: 将内存压缩策略集成至目标模型中后, 模拟运行集 成有内存压缩策 略的目标模型, 对内存压缩策略进 行评估, 以确定内存压缩策略是否为最佳内存压缩策略; 若不为最佳内存压缩 策略, 则对内存压缩策略进 行优化, 直至获得最佳内存压缩 策略; 将所 述最佳内存压缩策略集成至目标模型中, 再进行并行训练并触发内存压缩策略。权 利 要 求 书 1/2 页 2 CN 114880130 B 25.根据权利要求1或4所述的一种在深度学习并行训练场景下突破内存限制的方法, 其 特征在于, 对所述目标模型进行并行训练并触发内存压缩策略包括: 将集成有内存压缩策略的目标模型作为输入, 按照内存压缩策略执行并行训练, 即按 照内存压缩策略, 将没有内存压缩策略的运算符通过底层训练框架执行, 有内存压缩策略 的运算符通过执行节省内存的操作和恢复状态的操作, 执行并行训练过程中, 为张量分配 和释放GPU设备与CPU设备内存空间, 并跟踪每 个GPU设备与CPU设备的内存使用情况。 6.根据权利要求1所述的一种在深度学习并行训练场景下突破内存限制的方法, 其特 征在于, 对所述目标模型进 行并行训练并触发内存压缩策略的过程中, 维护一个元数据表, 跟踪经过D2D交换或GPU ‑CPU交换的张量的状态; 对于每个张量, 在执行卸载操作之前记录 如下信息: 数据块的数量、 每个数据块的大小和目标GPU设备的索引; 其中, 数据块是张量片 段, 对张量切片, 形成张量片段, 用于同时将不同的数据片段发送到不同的GPU上。 7.一种在深度学习并行训练场景下突破内存限制的系统, 其特征在于, 基于权利要求1 ~6任一项所述的方法实现, 该系统包括: 剖析器, 用于对目标模型进行若干次迭代计算, 获得目标模型在 当前系统环境配置下, 每个张量的内存占用和使用间隔信息; 规划者, 用于根据每个张量的内存占用和使用间隔信息, 选择使用D2D交换方式、 重计 算方式或GPU ‑CPU交换技术生 成内存压缩 策略, 并将相应内存压缩 策略集成至目标模 型中; 如果选择使用D2D交换, 则列举所有的设备映射方式, 评估每一设备映射方式下D2D交换性 能, 选出最优D2D交换性能对应的设备映射方式作为 最优设备映射方式; 改写器, 用于并将内存压缩策略集成至目标模型中; 模型训练与内存压缩单元, 用于利用集成有内存压缩策略的目标模型, 对所述目标模 型进行并行训练并触发内存压缩策略。 8.一种处理设备, 其特征在于, 包括: 一个或多个处理器; 存储器, 用于存储一个或多个 程序; 其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个 处理器实现如权利要求1~6任一项所述的方法。 9.一种可读存储介质, 存储有计算机程序, 其特征在于, 当计算机程序被处理器执行时 实现如权利要求1~6任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114880130 B 3

.PDF文档 专利 并行训练中突破内存限制的方法、系统、设备及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 并行训练中突破内存限制的方法、系统、设备及存储介质 第 1 页 专利 并行训练中突破内存限制的方法、系统、设备及存储介质 第 2 页 专利 并行训练中突破内存限制的方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:32:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。