全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210722305.8 (22)申请日 2022.06.24 (71)申请人 苏州浪潮智能科技有限公司 地址 215000 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 李宝然 王超  (74)专利代理 机构 北京连和连知识产权代理有 限公司 1 1278 专利代理师 宋薇薇 马鹏林 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01) (54)发明名称 对GPU资源进行使用的方法、 系统、 设备及介 质 (57)摘要 本发明公开了一种对GPU资源进行使用的方 法、 系统、 设备及介质, 方法包括: 启动容器, 依次 将第一资源、 GP U资源与客户端挂载于容器, 并在 容器建立训练框架; 基于客户端从训练框架获取 CUDA调用请求并将CUDA调用请求转发到全局服 务端, 并将训练框架置于停止状态; 基于全局服 务端获取服务器集群的GPU资源使用信息以将 CUDA调用请求转发到对应的本地服务端, 并基于 客户端将训练框架置于运行状态; 基于本地服务 端调用对应的GPU资源执行训练任务, 并在训练 任务执行结束后将计算结果返回给全局服务端 和训练框架 。 通过本发明的方案, 实现了GP U资源 的池化和高效的利用率。 权利要求书2页 说明书8页 附图3页 CN 115114022 A 2022.09.27 CN 115114022 A 1.一种对GPU资源进行使用的方法, 其特 征在于, 包括: 启动容器, 依次将第一资源、 GPU资源与客户端挂载于所述容器, 并在所述容器建立训 练框架; 基于所述客户端从所述训练框架获取CUDA调用请求并将所述CUDA调用请求转发到全 局服务端, 并将所述训练框架置 于停止状态; 基于所述全局服务端获取服务器集群的GPU资源使用信息以将所述CUDA调用请求转发 到对应的本地 服务端, 并基于所述 客户端将所述训练框架置 于运行状态; 基于所述本地服务端调用对应的GPU资源执行训练任务, 并在所述训练任务执行结束 后将计算结果返回给 所述全局服 务端和所述训练框架。 2.根据权利要求1所述的方法, 其特征在于, 依次将第一资源、 GPU资源与客户端挂载于 所述容器, 并在所述 容器建立训练框架包括: 将第一资源挂载于所述容器, 并在所述容器建立训练框架, 其中, 所述第一资源包括 CPU资源、 内存资源、 磁 盘资源; 获取用户对GPU资源的使用 方式, 并基于所述用户对所述GPU资源的使用 方式将所述 GPU资源挂载于所述 容器; 将客户端挂载于所述 容器。 3.根据权利要求1所述的方法, 其特征在于, 基于所述客户端从所述训练框架获取CUDA 调用请求并将所述CUDA调用请求 转发到全局服 务端包括: 响应于所述训练框架的用户训练进程需使用GPU资源, 基于所述客户端从所述用户训 练进程获取 所述CUDA调用请求并将所述CUDA调用请求 转发到全局服 务端。 4.根据权利要求3所述的方法, 其特征在于, 在所述训练任务执行结束后将计算结果返 回给所述全局服 务端和所述训练框架包括: 在所述训练任务执行结束后将计算结果返回给所述全局服务端, 并基于所述全局服务 端将所述计算结果发送给 所述训练框架。 5.根据权利要求4所述的方法, 其特征在于, 在将所述计算结果发送给所述训练框架之 后, 方法进一 步包括: 响应于所述训练框架接收到所述计算结果, 基于所述训练框架结束所述用户训练进 程, 并基于所述 客户端向所述全局服 务端发出GPU资源释放消息; 基于所述全局服务端接收所述GPU资源释放消息, 并向所述本地服务端发出GPU资源使 用结束消息, 并更新所述GPU 使用信息 。 6.根据权利要求2所述的方法, 其特征在于, 基于所述用户对所述GPU资源的使用方式 将所述GPU资源挂载于所述 容器包括: 响应于所述用户需要 使用物理GPU资源, 则将对应的GPU资源直接挂载到所述 容器; 响应于所述用户不需要使用物理GPU, 则劫持对应的GPU资源对应的动态库文件, 并将 所述对应的GPU资源及其所对应的动态库文件一并挂载到所述 容器。 7.根据权利要求1所述的方法, 其特征在于, 基于所述全局服务端获取服务器集群的 GPU资源使用信息以将所述CUDA调用请求 转发到对应的本地 服务端包括: 基于所述全局服务端获取所述服务器集群中每个服务器节点的GPU使用信息, 并基于 所述GPU使用信息以及调度策略将所述CUDA调用请求 转发到对应的本地 服务端;权 利 要 求 书 1/2 页 2 CN 115114022 A 2其中, 所述调度策略包括: 基于训练任务所需GPU资源以及每个服务器节点的剩余GPU 资源的匹配情况将所述训练任务调度到对应的GPU; 所述训练框架包括: TensorFl ow、 PyTorc h中的任意 一种。 8.一种对GPU资源进行使用的系统, 其特 征在于, 包括: 挂载模块, 所述挂载模块配置为启动容器, 依次将第一资源、 GPU资源与客户端挂载于 所述容器, 并在所述 容器建立训练框架; 第一转发模块, 所述第一转发模块配置为基于所述客户端从所述训练框架获取CUDA调 用请求并将所述CUDA调用请求 转发到全局服 务端, 并将所述训练框架置 于停止状态; 第二转发模块, 所述第二转发模块基于所述全局服务端获取服务器集群的GPU资源使 用信息以将所述CUDA调用请求转 发到对应的本地服务端, 并基于所述客户端将所述训练框 架置于运行状态; 调用模块, 所述调用模块配置为基于所述本地服务端调用对应的GPU资源执行训练任 务, 并在所述训练任务执 行结束后将计算结果返回给 所述全局服 务端和所述训练框架。 9.一种计算机设备, 包括: 至少一个处 理器; 以及 存储器, 所述存储器存储有可在所述处理器上运行的计算机程序, 其特征在于, 所述处 理器执行所述程序时执 行如权利要求1至7任意 一项所述的方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时执行如权利要求1至7任意 一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115114022 A 3

.PDF文档 专利 对GPU资源进行使用的方法、系统、设备及介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对GPU资源进行使用的方法、系统、设备及介质 第 1 页 专利 对GPU资源进行使用的方法、系统、设备及介质 第 2 页 专利 对GPU资源进行使用的方法、系统、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:32:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。