专利一种温度约束下的终端设备异构处理器推断加速方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111426929.7 (22)申请日 2021.11.28 (71)申请人东南大学地址 210000 江苏省南京市麒麟科创园智识路26号启迪城立业园04幢申请人江苏省未来网络创新研究院 (72)发明人张竞慧　黄天宇　王宇晨　金嘉晖　东方　张毅晔　徐波　 (74)专利代理机构南京众联专利代理有限公司 32206 代理人叶涓涓 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 111/04(2020.01) G06F 119/06(2020.01) G06F 119/08(2020.01) (54)发明名称一种温度约束下的终端设备异构处理器推断加速方法 (57)摘要本发明提供一种温度约束下的终端设备异构处理器推断加速方法，针对工业生产环境下配备多个异构处理器的智能终端设备，解决深度神经网络层间异构、处理器异构和环境温度导致的终端设备推断效率低的问题。本发明首先考虑工业生产的环境温度和终端设备处理器功率，建立了温度约束下的终端设备动态频率模型，并使用温度感知的动态频率算法设定设备频率；然后，根据深度神经网络中不同层的计算方式和结构特性，设计了深度神经网络单层并行方法；最后，利用终端设备中的异构处理器，设计了面向异构处理器的深度神经网络单层计算任务分配方法，保障了终端设备异构处理器协同推断的低延迟和鲁棒性。权利要求书3页说明书12页附图2页 CN 114117918 A 2022.03.01 CN 114117918 A 1.一种温度约束下的终端设备异构处理器推断加速方法，其特征在于，包括以下步骤：步骤一：构建温度约束下的终端设备动态频率设定模型，分析工业生产环境下的终端设备功耗控制与时钟频率约束关系，通过实际测量环境温度、设备功耗建模；步骤二：神经网络单层粒度并行方式选择，刻画深度神经网络各层的计算量，分析卷积层、池化层、全连接层这三类常见层的数据结构与计算量，结合异构处理器的计算方式和结构特性，估算每一层在各处理器上的计算延迟，从而确定深度神经网络单层并行方法；步骤三：以步骤一、二为基础，提供深度神经网络推断过程的单层粒度计算负载划分，具体包括：首先，考虑工业生产的高温环境，根据步骤一建立的温度约束下的终端设备动态频率模型，设定设备处理器频率，从而实现对设备功耗的限制以保持设备的温度在合理工况区间；之后，根据步骤二中设计的深度神经网络单层并行方法，选定不同层及其组合的单层粒度并行模式，可选模式为数据并行与模型并行，进一步考虑每层来自于将两个处理器的输出结果合并造成的计算时间，即并行后额外时延；最后，实现异构处理器的深度神经网络单层计算任务分配，任务分配的目标为实现终端设备推断总时延最小；将温度约束下的终端设备异构处理器推断加速问题转化为一个遵从一定约束的优化问题，并使用温度感知的动态频率算法TADF与单层异构处理器负载分配算法HSWD算法对每层的计算任务进行负载分配，使得每一层的推断时延最低。 2.根据权利要求1所述的温度约束下的终端设备异构处理器推断加速方法，其特征在于，所述步骤一中构建温度约束下的终端设备动态频率设定模型时，基于建模关键参数终端设备中异构处理器的频率fprocessor、异构处理器功耗Pprocessor，得出终端设备总功耗P；基于建模关键参数t时刻环境温度Teno(t)与设备温度T(t)，得出设备稳态运行温度T(∞)；异构处理器的浮点运算速度与设备稳态运行温度遵循一定约束。 3.根据权利要求2所述的温度约束下的终端设备异构处理器推断加速方法，其特征在于，所述步骤一具体包括如下过程：首先对智能终端设备特征进行建模，对于一个配备有CPU和GPU的智能终端设备D，该设备中异构处理器的频率由处理器时钟频率fclock和每时钟周期浮点运算次数nprocessor表示，即和处理器功耗与该处理器的时钟频率有关，其中 Pprocessor＝Ψ(fclock)3， Ψ(W/((周期/s))3)是一个由处理器架构决定的系数，故处理器功耗有如下表示：其中， ΥC＝ΨC/(nC)3， ΥG＝ΨG/(nG)3；另外，设备待机功耗通过一个线性模型高精度地估计设备的待机功耗与环境以及设备电压之间的关系，即Pidle＝V( β1Teno+β0)，系数β1和β0与设备的性能有关，故终端设备总功耗为： P＝Pidle+PC+PG ＝V( β1Teno+β0)+ΥC(fC)3+ΥG(fG)3 由于环境温度Teno(t)与设备自身热功耗因素影响，刻画当设备的处理器工作频率以及环境温度保持稳定时，设备长时间持续工作后将会达到稳定温度模型T(t →∞)；根据热电权　利　要　求　书 1/3 页 2 CN 114117918 A 2路模型，将设备的温度表示为与设备功耗有关的函数，当设备D以功率P运行时， t时刻设备的温度表示为：其中， R(℃/W)和C(J/K)分别表示热阻和热容；由此可得，当t→∞时，设备稳定运行温度为： T(∞)＝Teno(∞)+P·R ＝Teno(∞)+(Pidle+PC+PG)·R ＝(1+VRβ1)·Teno(∞)+RΥC·(fC)3+RΥG·(fG)3+VRβ0 ＝α1·Teno(∞)+α2·(fC)3+α3·(fG)3+α0 使设备的温度始终低于它的最大稳定工作温度Tmax；相应地，设备D中的CPU与GPU的浮点运算速度应遵守约束： α2·(fC)3+α3·(fG)3≤Tmax‑α1·Teno(∞)‑α0.。 4.根据权利要求1所述的温度约束下的终端设备异构处理器推断加速方法，其特征在于，所述步骤二中刻画深度神经网络中常见层的计算量W，单独分析每层在各个异构处理器上的计算量结合每层数据结构与计算特征，选择单层粒度的数据并行或模型并行。 5.根据权利要求2所述的温度约束下的终端设备异构处理器推断加速方法，其特征在于，所述步骤二具体包括如下过程：首先，对深度神经网络进行建模，分别计算卷积层、池化层、全连接层的浮点计算量W；其次，考虑上述三种网络层的单层粒度并行模式，即数据并行与模型并行。对于卷积层和全连接层，使用模型并行方式对卷积核进行划分；对池化层的计算采用数据并行方式，通过对输入矩阵按照通道进行划分以实现并行。 6.根据权利要求1所述的温度约束下的终端设备异构处理器推断加速方法，其特征在于，所述步骤三中实现异构处理器的深度神经网络单层计算任务分配时，将分析终端设备中异构处理器的性能以及深度神经网络中单层的结构特点，对深度神经网络中的单层做计算任务划分，并行计算完成后再合并结果；首先，刻画神经网络每一层在CPU和GPU上的计算量WC， WG，然后分析在CPU和GPU上的推断时延从而使用并行方式执行层 Li的延迟可以表示为总时延由并行过程中最大的运行时间与计算结果合并时间两部分组成，最终计算 Li层最短执行时延ti：其中，是使用并行方式推断时合并两个处理器输出结果造成的额外时延，和分别是仅使用CPU和GPU执行层li所需时间。 7.根据权利要求1或6所述的温度约束下的终端设备异构处理器推断加速方法，其特征在于，优化问题的求解目标为符合问题设定的数学模型约束的最小时延：权　利　要　求　书 2/3 页 3 CN 114117918 A 3

专利 一种温度约束下的终端设备异构处理器推断加速方法

专利一种温度约束下的终端设备异构处理器推断加速方法