全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211317231.6 (22)申请日 2022.10.26 (65)同一申请的已公布的文献号 申请公布号 CN 115373861 A (43)申请公布日 2022.11.22 (73)专利权人 小米汽车 科技有限公司 地址 100176 北京市北京经济技 术开发区 科创十街15号院5号楼6层618室 (72)发明人 刘国明  (74)专利代理 机构 北京法胜知识产权代理有限 公司 11922 专利代理师 白雪静 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01)G06N 3/04(2006.01) G06N 3/063(2006.01) G06N 5/04(2006.01) 审查员 刘芳 (54)发明名称 GPU资源调度方法、 装置、 电子设备及存储介 质 (57)摘要 本公开关于一种GPU资源调度方法、 装置、 电 子设备及存储介质, 涉及计算机技术领域。 其中, 所述GPU资源调度方法, 包 括: 在接收到目标神经 网络模型的部署指令的情况下, 确定目标神经网 络模型的服务类型, 然后获取目标神经网络模型 的服务类型对应的目标预设模型分割方式, 再根 据目标预设模型分割方式将目标神经网络模型 划分为多个子模 型, 最后将多个子模 型加载至每 个子模型对应的图形处理器GPU, 以通过每个子 模型对应的GP U实现GPU资源调度。 采用本公开实 施例提供的GPU资源调度方法, 能够避免人工分 割子模型和二次运算的过程, 从而可以有效简化 目标神经网络模 型的推理部署过程, 提高部署效 率, 进而提高神经网络模型的应用效率。 权利要求书2页 说明书11页 附图2页 CN 115373861 B 2022.12.27 CN 115373861 B 1.一种GPU资源调度方法, 其特 征在于, 包括: 在接收到目标神经网络模型的部署指令的情况下, 确定所述目标神经网络模型的服务 类型; 其中, 所述目标神经网络模型的服 务类型根据所述部署指令的解析 结果确定; 获取所述目标神经网络模型的服 务类型对应的目标 预设模型分割方式; 根据所述目标 预设模型分割方式将所述目标神经网络模型划分为多个子模型; 将所述多个子模型加载至每个所述子模型对应的图形处理器GPU, 以通过每个所述子 模型对应的GPU实现GPU资源调度; 所述获取 所述目标神经网络模型的服 务类型对应的目标 预设模型分割方式, 包括: 通过虚拟GPU设备在虚拟GPU代理程序中确定与所述服务类型对应的目标虚拟GPU插 件; 其中, 所述虚拟GPU代理程序对应有多个虚拟GPU插件, 每个所述虚拟GPU插件对应一种 服务类型的神经网络模型; 通过所述虚拟GPU设备调用所述目标虚拟GPU插件获取所述目标神经网络模型的服务 类型对应的目标 预设模型分割方式。 2.根据权利要求1所述的GPU资源调度方法, 其特征在于, 所述在接收到目标神经网络 模型的部署指令的情况 下, 确定所述目标神经网络模型的服 务类型之前, 还 包括: 获取多种服 务类型的神经网络模型; 为每种服 务类型的所述神经网络模型设置对应的预设模型分割方式。 3.根据权利要求1所述的GPU资源调度方法, 其特征在于, 所述确定所述目标神经网络 模型的服 务类型之前, 还 包括: 确定所述目标神经网络模型 是否为大规模神经网络模型; 所述确定所述目标神经网络模型的服 务类型, 包括: 在所述目标神经网络模型为大规模神经网络模型的情况下, 确定所述目标神经网络模 型的服务类型。 4.根据权利要求1所述的GPU资源调度方法, 其特征在于, 所述将所述多个子模型加载 至每个所述子模型对应的图形处 理器GPU, 包括: 通过所述虚拟GPU设备调用所述目标虚拟GPU插件, 将所述多个子模型加载至每个所述 子模型对应的物理GPU。 5.根据权利要求1所述的GPU资源调度方法, 其特征在于, 所述获取所述目标神经网络 模型的服 务类型对应的目标 预设模型分割方式, 包括: 通过所述目标神经网络模型的服务类型对应的预设虚拟GPU调度组件, 获取目标预设 模型分割方式。 6.根据权利 要求5所述的GPU资源调度 方法, 其特征在于, 所述虚拟GPU设备的显存数量 根据所述虚拟GPU设备的物理GPU数量与每 个所述物理GPU的显存设置 。 7.一种GPU资源调度装置, 其特 征在于, 包括: 第一确定模块, 用于在接收到目标神经网络模型的部署指令的情况下, 确定所述目标 神经网络模型 的服务类型; 其中, 所述 目标神经网络模型 的服务类型根据所述部署指令的 解析结果确定; 第一获取模块, 用于获取所述目标神经网络模型的服务类型对应的目标预设模型分割 方式;权 利 要 求 书 1/2 页 2 CN 115373861 B 2模型分割 模块, 用于根据所述目标预设模型分割方式将所述目标神经网络模型划分为 多个子模型; 模型加载模块, 用于将所述多个子模型加载至每个所述子模型对应的图形处理器GPU, 以通过每 个所述子模型对应的GPU实现GPU资源调度; 所述第一获取模块, 包括: 第二确定单元, 用于通过虚拟GPU设备在虚拟GPU代理程序中确定与所述服务类型对应 的目标虚拟GPU插件; 其中, 所述虚拟GPU代理程序对应有多个虚拟GPU插件, 每个所述虚拟 GPU插件对应一种服 务类型的神经网络模型; 第一获取单元, 用于通过所述虚拟GPU设备调用所述目标虚拟GPU插件获取所述目标神 经网络模型的服 务类型对应的目标 预设模型分割方式。 8.根据权利要求7 所述的GPU资源调度装置, 其特 征在于, 所述装置, 还 包括: 第二获取模块, 用于获取多种服 务类型的神经网络模型; 设置模块, 用于为每种服 务类型的所述神经网络模型设置对应的预设模型分割方式。 9.根据权利要求7 所述的GPU资源调度装置, 其特 征在于, 所述装置, 还 包括: 第二确定模块, 用于确定所述目标神经网络模型 是否为大规模神经网络模型; 所述第一确定模块, 包括: 第一确定单元, 用于在所述目标神经网络模型为大规模神经网络模型的情况下, 确定 所述目标神经网络模型的服 务类型。 10.根据权利要求7 所述的GPU资源调度装置, 其特 征在于, 所述模型加载模块, 包括: 加载单元, 用于通过所述虚拟GPU设备调用所述目标虚拟GPU插件, 将所述多个子模型 加载至每 个所述子模型对应的物理GPU。 11.根据权利要求7 所述的GPU资源调度装置, 其特 征在于, 所述第一获取模块, 包括: 第二获取单元, 用于通过所述目标神经网络模型的服务类型对应的预设虚拟GPU调度 组件, 获取目标 预设模型分割方式。 12.根据权利 要求11所述的GPU资源调度装置, 其特征在于, 所述虚拟GPU设备的显存数 量根据所述虚拟GPU设备的物理GPU数量与每 个所述物理GPU的显存设置 。 13.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至6中任一项所述的GPU 资源调度方法。 14.一种存储介质, 当所述存储介质中的指令由电子设备的处理器执行时, 使得电子设 备能够执 行如权利要求1至 6中任一项所述的GPU资源调度方法。权 利 要 求 书 2/2 页 3 CN 115373861 B 3

PDF文档 专利 GPU资源调度方法、装置、电子设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 GPU资源调度方法、装置、电子设备及存储介质 第 1 页 专利 GPU资源调度方法、装置、电子设备及存储介质 第 2 页 专利 GPU资源调度方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。