专利一种基于核函数的神经网络模型推理时延预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211162055.3 (22)申请日 2022.09.23 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人胡晗　黄沛杰　郑雨宁　李逸来　 (74)专利代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639 专利代理师邬晓楠 (51)Int.Cl. G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/063(2006.01) G06N 3/08(2006.01) G06F 9/50(2006.01)G06N 20/00(2019.01) (54)发明名称一种基于核函数的神经网络模型推理时延预测方法 (57)摘要本发明公开的一种基于核函数的神经网络模型推理时延预测方法，属于深度学习领域。本发明使用核函数信息来预测推理时延，通过收集神经网络模型推理时被分解出的核函数的各类参数，拟合核函数的参数随图形处理器资源分配量的变化曲线，通过拟合的曲线获取单个模型推理时延预测结果；并为每类神经网络模型构建共存推理时与时延增长程度有关的四维曲面，通过曲面获取其与其他模型共存推理时的时延预测结果。本发明解决多神经网络执行时因模型种类多，组合情况复杂导致的时延难以预测的问题，本发明预测准确率高，更轻量级，能够改善云端服务器的推理时延预测性能。权利要求书2页说明书8页附图3页 CN 115511083 A 2022.12.23 CN 115511083 A 1.一种基于核函数的神经网络模型推理时延预测方法，其特征在于：通过分解不同结构的神经网络模型为基础核函数，以基础核函数为单位进行预测，通过降维的方式增强扩展性，解决云端服务器执行神经网络模型推理时，模型种类多，组合情况复杂导致的时延难以预测的问题，实现云端服务器模型推理时延的预测，提高云端服务器推理任务的服务质量，具体包含以下步骤：步骤一：获取神经网络模型对应的核函数执行时的分析数据；设置神经网络模型推理时的不同批量和分配的图形处理器(Graphics Processing Unit， GPU)资源，获取每种情况下核函数执行时的参数，包括：核函数执行时将分解出的低级汇编指令的数量Nins，核函数执行过程中低级汇编指令的执行速度Sins，核函数执行过程中GPU时钟速率SG P U，核函数执行过程中GPU的流式多处理器SM(Streaming Multiprocessor)利用率rsm，核函数执行过程中GPU经历的周期数CGPU，核函数执行过程中SM 活跃的周期数Csm，核函数执行过程中L1缓存与L2缓存的数据交换量b1以及L2缓存与 GPU内存的数据交换量b2；步骤二：拟合核函数参数在不同GPU资源下的变化曲线；拟合的核函数参数包括：指令的执行速度Sins、 GPU时钟速率SGPU、 GPU的SM利用率rsm以及 GPU经历的周期数CGPU与SM活跃的周期数Csm的比值α 与SM利用率的乘积α ·rsm；步骤三：构建单模型推理的时延预测模型；确定需要预测的模型推理时会被分解出的所有核函数类型；根据需要预测的模型执行时分配的GPU资源量，通过步骤二确定的核函数参数拟合曲线，确定每个分解出的核函数的各个参数的预测值；确定单模型推理过程分解出的所有核函数的实际执行时间之和Texec，如式(1)所示：其中， n是推理模型分解出的核函数数量，是核函数Ki分解出的低级汇编指令数量，是执行核函数Ki时GPU的指令执行速度，是执行核函数Ki时GPU的时钟速率， C是一个常数，由任意核函数的指令数量除以指令执行速度得到， αi是Ki的GPU总周期数与SM 活跃周期数的比值；通过分析核函数类型获得、以及α 通过步骤二确定的核函数Ki的拟合曲线获得；核函数的总调度时延Tsche与核函数数量、 GPU资源量以及批量大小有关，如公式(2)所示：其中， tsche是单个核函数的调度时间， bs是模型推理使用的批量大小， rgpu是模型推理分配的GPU资源百分比；单模型推理时延包括核函数的执行时延以及核函数的调度时延，单模型推理的时延权　利　要　求　书 1/2 页 2 CN 115511083 A 2Tinfer如式(3)所示： Tinfer＝TexeC+Tsche (3) 步骤四：构建多模型共存推理的时延预测模型；构建与L2缓存以及GPU内存相关的多模型共存推理的时延预测模型，如式(4)所示：其中， P为多模型共存推理的时延预测模型相比于单独运行的时延增长百分比， Bpredict 以及分别为待预测的神经网络模型和第j个共存的神经网络模型在单独执行过程中所有核函数的L1缓存与L2缓存的数据交换量以及L2缓存与GPU内存的数据交换量之和，通过步骤一中获取的每个核函数的b1和b2累加得到， M为除待预测的神经网络模型外的其他共存模型的数量之和， k1、 k2、 k3、 k4以及C1为多模型共存推理的时延预测模型中的参数；确定多模型共存推理的时延预测模型中的参数，具体包括以下子步骤：步骤4.1收集待预测的神经网络模型与其他神经网络模型在不同批量和GPU资源分配量情况下多模型共存推理的时延预测模型相比于单独运行的时延增长百分比P；步骤4.2采用数据拟合的方法确定多模型共存推理的时延预测模型中的参数k1、 k2、 k3、 k4以及C1，完成多模型共存推理的时延预测模型的构建；步骤五：进行实际时延预测：将步骤三构建的单模型推理的时延预测模型以及步骤四构建的多模型共存推理的时延预测模型部署至云端服务器；对于单模型推理的时延预测，获取待预测模型的核函数种类，采用步骤三构建的单模型推理的时延预测模型，通过公式(1)、公式(2)以及公式(3)得到单模型推理的时延预测结果；对于多模型共存推理的时延预测，获取每个待预测模型的核函数种类，采用步骤四构建的多模型共存推理的时延预测模型，通过公式(4)得到多模型共存推理下待预测模型相比单独运行时的时延增长百分比；结合单模型推理的时延预测结果以及多模型共存推理下待预测模型相比单独运行时的时延增长百分比得到共存推理时延预测值。 2.如权利要求1所述的一种基于核函数的神经网络模型推理时延预测方法，其特征在于：步骤二中采用一次线性函数形式拟合指令的执行速度Sins、 GPU时钟速率SGPU以及GPU总周期数与SM活跃周期数的比值α 与SM利用率的乘积α ·rsm在不同GPU资源下的变化曲线；采用反比例函数形式拟合GPU的SM利用率rsm在不同GPU资源下的变化曲线；以上两种拟合形式均使用非线性最小二乘法进行实际拟合，以获取最接近样本点的函数曲线，最终每种核函数都会得到四条拟合曲线。 3.如权利要求1所述的一种基于核函数的神经网络模型推理时延预测方法，其特征在于：步骤4.2中采用非线性最小二乘拟合方法，拟合由P、 Bpredict、 Bco‑located以及rgpu组成的四维曲面，确定多模型共存推理的时延预测模型中的k1、 k2、 k3、 k4以及C1五个参数。权　利　要　求　书 2/2 页 3 CN 115511083 A 3

专利 一种基于核函数的神经网络模型推理时延预测方法

专利一种基于核函数的神经网络模型推理时延预测方法