专利对GPU资源进行使用的方法、系统、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210722305.8 (22)申请日 2022.06.24 (71)申请人苏州浪潮智能科技有限公司地址 215000 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢 (72)发明人李宝然　王超　 (74)专利代理机构北京连和连知识产权代理有限公司 1 1278 专利代理师宋薇薇　马鹏林 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01) (54)发明名称对GPU资源进行使用的方法、系统、设备及介质 (57)摘要本发明公开了一种对GPU资源进行使用的方法、系统、设备及介质，方法包括：启动容器，依次将第一资源、 GP U资源与客户端挂载于容器，并在容器建立训练框架；基于客户端从训练框架获取 CUDA调用请求并将CUDA调用请求转发到全局服务端，并将训练框架置于停止状态；基于全局服务端获取服务器集群的GPU资源使用信息以将 CUDA调用请求转发到对应的本地服务端，并基于客户端将训练框架置于运行状态；基于本地服务端调用对应的GPU资源执行训练任务，并在训练任务执行结束后将计算结果返回给全局服务端和训练框架。通过本发明的方案，实现了GP U资源的池化和高效的利用率。权利要求书2页说明书8页附图3页 CN 115114022 A 2022.09.27 CN 115114022 A 1.一种对GPU资源进行使用的方法，其特征在于，包括：启动容器，依次将第一资源、 GPU资源与客户端挂载于所述容器，并在所述容器建立训练框架；基于所述客户端从所述训练框架获取CUDA调用请求并将所述CUDA调用请求转发到全局服务端，并将所述训练框架置于停止状态；基于所述全局服务端获取服务器集群的GPU资源使用信息以将所述CUDA调用请求转发到对应的本地服务端，并基于所述客户端将所述训练框架置于运行状态；基于所述本地服务端调用对应的GPU资源执行训练任务，并在所述训练任务执行结束后将计算结果返回给所述全局服务端和所述训练框架。 2.根据权利要求1所述的方法，其特征在于，依次将第一资源、 GPU资源与客户端挂载于所述容器，并在所述容器建立训练框架包括：将第一资源挂载于所述容器，并在所述容器建立训练框架，其中，所述第一资源包括 CPU资源、内存资源、磁盘资源；获取用户对GPU资源的使用方式，并基于所述用户对所述GPU资源的使用方式将所述 GPU资源挂载于所述容器；将客户端挂载于所述容器。 3.根据权利要求1所述的方法，其特征在于，基于所述客户端从所述训练框架获取CUDA 调用请求并将所述CUDA调用请求转发到全局服务端包括：响应于所述训练框架的用户训练进程需使用GPU资源，基于所述客户端从所述用户训练进程获取所述CUDA调用请求并将所述CUDA调用请求转发到全局服务端。 4.根据权利要求3所述的方法，其特征在于，在所述训练任务执行结束后将计算结果返回给所述全局服务端和所述训练框架包括：在所述训练任务执行结束后将计算结果返回给所述全局服务端，并基于所述全局服务端将所述计算结果发送给所述训练框架。 5.根据权利要求4所述的方法，其特征在于，在将所述计算结果发送给所述训练框架之后，方法进一步包括：响应于所述训练框架接收到所述计算结果，基于所述训练框架结束所述用户训练进程，并基于所述客户端向所述全局服务端发出GPU资源释放消息；基于所述全局服务端接收所述GPU资源释放消息，并向所述本地服务端发出GPU资源使用结束消息，并更新所述GPU 使用信息。 6.根据权利要求2所述的方法，其特征在于，基于所述用户对所述GPU资源的使用方式将所述GPU资源挂载于所述容器包括：响应于所述用户需要使用物理GPU资源，则将对应的GPU资源直接挂载到所述容器；响应于所述用户不需要使用物理GPU，则劫持对应的GPU资源对应的动态库文件，并将所述对应的GPU资源及其所对应的动态库文件一并挂载到所述容器。 7.根据权利要求1所述的方法，其特征在于，基于所述全局服务端获取服务器集群的 GPU资源使用信息以将所述CUDA调用请求转发到对应的本地服务端包括：基于所述全局服务端获取所述服务器集群中每个服务器节点的GPU使用信息，并基于所述GPU使用信息以及调度策略将所述CUDA调用请求转发到对应的本地服务端；权　利　要　求　书 1/2 页 2 CN 115114022 A 2其中，所述调度策略包括：基于训练任务所需GPU资源以及每个服务器节点的剩余GPU 资源的匹配情况将所述训练任务调度到对应的GPU；所述训练框架包括： TensorFl ow、 PyTorc h中的任意一种。 8.一种对GPU资源进行使用的系统，其特征在于，包括：挂载模块，所述挂载模块配置为启动容器，依次将第一资源、 GPU资源与客户端挂载于所述容器，并在所述容器建立训练框架；第一转发模块，所述第一转发模块配置为基于所述客户端从所述训练框架获取CUDA调用请求并将所述CUDA调用请求转发到全局服务端，并将所述训练框架置于停止状态；第二转发模块，所述第二转发模块基于所述全局服务端获取服务器集群的GPU资源使用信息以将所述CUDA调用请求转发到对应的本地服务端，并基于所述客户端将所述训练框架置于运行状态；调用模块，所述调用模块配置为基于所述本地服务端调用对应的GPU资源执行训练任务，并在所述训练任务执行结束后将计算结果返回给所述全局服务端和所述训练框架。 9.一种计算机设备，包括：至少一个处理器；以及存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1至7任意一项所述的方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1至7任意一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 115114022 A 3

专利 对GPU资源进行使用的方法、系统、设备及介质

专利对GPU资源进行使用的方法、系统、设备及介质