全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211162055.3 (22)申请日 2022.09.23 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 胡晗 黄沛杰 郑雨宁 李逸来  (74)专利代理 机构 北京正阳理工知识产权代理 事务所(普通 合伙) 11639 专利代理师 邬晓楠 (51)Int.Cl. G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/063(2006.01) G06N 3/08(2006.01) G06F 9/50(2006.01)G06N 20/00(2019.01) (54)发明名称 一种基于核函数的神经网络模型推理时延 预测方法 (57)摘要 本发明公开的一种基于核函数的神经网络 模型推理时延预测方法, 属于深度学习领域。 本 发明使用核函数信息来预测推理时延, 通过收集 神经网络模型推理时被分解出的核函数的各类 参数, 拟合核函数的参数随图形处理器 资源分配 量的变化曲线, 通过拟合的曲线获取单个模型推 理时延预测结果; 并为每类神经网络模型构建共 存推理时与时延增长程度有关的四维曲面, 通过 曲面获取其与其他模型共存推理时的时延预测 结果。 本发 明解决多神经网络执行时因模型种类 多, 组合情况复杂导致的时延难以预测的问题, 本发明预测准确率高, 更轻量级, 能够改善云端 服务器的推理时延预测性能。 权利要求书2页 说明书8页 附图3页 CN 115511083 A 2022.12.23 CN 115511083 A 1.一种基于核函数的神经网络模型推理时延预测方法, 其特征在于: 通过分解不同结 构的神经网络模型为基础核函数, 以基础核函数为单位进行预测, 通过降维的方式增强扩 展性, 解决云端服务器执行神经网络模 型推理时, 模型种类多, 组合情况复杂导致的时延难 以预测的问题, 实现云端服务器模型推理时延的预测, 提高云端服务器推理任务的服务质 量, 具体包 含以下步骤: 步骤一: 获取神经网络模型对应的核函数 执行时的分析 数据; 设置神经网络模型推理时的不同批量和分配的图形处理器(Graphics  Processing   Unit, GPU)资源, 获取每种情况下核函数执行时的参数, 包括: 核函数执行时将分解出的低 级汇编指令的数量Nins, 核函数执行过程中低级汇编指令的执行速度Sins, 核函数执行过程 中GPU时钟速率SG P U, 核函数执行过程中GPU的流式多处理器SM(Streaming   Multiprocessor)利用率rsm, 核函数执行过程中GPU经历的周期数CGPU, 核函数执行过程中SM 活跃的周期数Csm, 核函数执行过程中L1缓存与L2缓存的数据交换量b1以及L2缓存与 GPU内 存的数据交换量b2; 步骤二: 拟合核函数参数在不同GPU资源下的变化曲线; 拟合的核函数参数包括: 指令的执行速度Sins、 GPU时钟速率SGPU、 GPU的SM利用率rsm以及 GPU经历的周期数CGPU与SM活跃的周期数Csm的比值α 与SM利用率的乘积α ·rsm; 步骤三: 构建单模型推理的时延预测模型; 确定需要预测的模型推理时会被分解出的所有 核函数类型; 根据需要预测的模型执行时分配的GPU资源量, 通过步骤二确定的核函数参数拟合曲 线, 确定每 个分解出的核函数的各个参数的预测值; 确定单模型推理过程分解出的所有 核函数的实际执 行时间之和Texec, 如式(1)所示: 其中, n是推理模型分解出的核函数数量, 是核函数Ki分解出的低级汇编指令数量, 是执行核函数Ki时GPU的指令执行速度, 是执行核函数Ki时GPU的时钟速率, C是一 个常数, 由任意核函数的指令数量除以指令执行速度得到, αi是Ki的GPU总周期数 与SM 活跃周期数 的比值; 通过分析核函数类型获得、 以及α 通过步骤二确定的核函数Ki的拟合曲 线获得; 核函数的总调度时延Tsche与核函数数量、 GPU资源量以及批量大小有关, 如公式(2)所 示: 其中, tsche是单个核 函数的调度时间, bs是模型推理使用的批量大小, rgpu是模型推理分 配的GPU资源百分比; 单模型推理时延包括核函数的执行时延以及核函数的调度时延, 单模型推理的时延权 利 要 求 书 1/2 页 2 CN 115511083 A 2Tinfer如式(3)所示: Tinfer=TexeC+Tsche    (3) 步骤四: 构建多模型共 存推理的时延预测模型; 构建与L2缓存以及GPU内存相关的多模型共 存推理的时延预测模型, 如式(4)所示: 其中, P为多模型共存推理的时延预测模型相比于单独运行的时延增长百分比, Bpredict 以及 分别为待预测的神经网络模型和第j个共存的神 经网络模型在单独执行过 程中所有核函数的L1缓存与L2缓存的数据交换量以及L2缓存与GPU内存的数据交换量之 和, 通过步骤一中获取的每个核函数的b1和b2累加得到, M为除待预测的神经网络模型外的 其他共存模型的数量之和, k1、 k2、 k3、 k4以及C1为多模型共 存推理的时延预测模型中的参数; 确定多模型共 存推理的时延预测模型中的参数, 具体包括以下子步骤: 步骤4.1收集待预测的神经网络模型与其他神经网络模型在不同批量和GPU资源分配 量情况下多模型共 存推理的时延预测模型相比于单独运行的时延增长百分比P; 步骤4.2采用数据拟合的方法确定多模型共存推理的时延预测模型中的参数k1、 k2、 k3、 k4以及C1, 完成多模型共 存推理的时延预测模型的构建; 步骤五: 进行实际时延预测: 将步骤三构建的单模型推理的时延预测模型以及步骤四构建的多模型共存推理的时 延预测模型部署至云端服 务器; 对于单模型推理的时延预测, 获取待预测模型的核函数种类, 采用步骤三构建的单模 型推理的时延预测模 型, 通过公 式(1)、 公 式(2)以及公 式(3)得到单模 型推理的时延预测结 果; 对于多模型共存推理的时延预测, 获取每个待预测模型的核函数种类, 采用步骤四构 建的多模型共存推理的时延预测模型, 通过公式(4)得到多模型共存推理下待预测模型相 比单独运行时的时延增长百分比; 结合单模型推理的时延预测结果以及多模型共存推理下待预测模型相比单独运行时 的时延增长百分比得到共 存推理时延预测值。 2.如权利要求1所述的一种基于核函数的神经网络模型推理时延预测方法, 其特征在 于: 步骤二中采用一次线性函数形式拟合指令的执行速度Sins、 GPU时钟速率SGPU以及GPU总 周期数与SM活跃周期数的比值α 与SM利用率的乘积α ·rsm在不同GPU资源下的变化曲线; 采用反比例函数 形式拟合GPU的SM利用率rsm在不同GPU资源下的变化曲线; 以上两种拟合形式均使用非线性最小二乘法进行实际拟合, 以获取最接近样本点的函 数曲线, 最终每种核函数都会得到四条拟合曲线。 3.如权利要求1所述的一种基于核函数的神经网络模型推理时延预测方法, 其特征在 于: 步骤4.2中采用非线性最小二乘拟合方法, 拟合由P、 Bpredict、 Bco‑located以及rgpu组成的四 维曲面, 确定多模型共 存推理的时延预测模型中的k1、 k2、 k3、 k4以及C1五个参数。权 利 要 求 书 2/2 页 3 CN 115511083 A 3

.PDF文档 专利 一种基于核函数的神经网络模型推理时延预测方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于核函数的神经网络模型推理时延预测方法 第 1 页 专利 一种基于核函数的神经网络模型推理时延预测方法 第 2 页 专利 一种基于核函数的神经网络模型推理时延预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。