全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111426929.7 (22)申请日 2021.11.28 (71)申请人 东南大学 地址 210000 江苏省南京市麒 麟科创园智 识路26号启迪城立 业园04幢 申请人 江苏省未来网络创新研究院 (72)发明人 张竞慧 黄天宇 王宇晨 金嘉晖  东方 张毅晔 徐波  (74)专利代理 机构 南京众联专利代理有限公司 32206 代理人 叶涓涓 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 111/04(2020.01) G06F 119/06(2020.01) G06F 119/08(2020.01) (54)发明名称 一种温度约束下的终端设备异构处理器推 断加速方法 (57)摘要 本发明提供一种温度约束下的终端设备异 构处理器推断加速方法, 针对工业生产环境下配 备多个异构处理器的智能终端设备, 解决深度神 经网络层间异构、 处理器异构和环 境温度导致的 终端设备推断效率低的问题。 本发 明首先考虑工 业生产的环 境温度和终端设备处理器功率, 建立 了温度约束下的终端设备动态频率模 型, 并使用 温度感知的动态频率算法设定设备频率; 然后, 根据深度神经网络中不同层的计算方式和结构 特性, 设计了深度神经网络 单层并行方法; 最后, 利用终端设备中的异构处理器, 设计了面向异构 处理器的深度神经网络单层计算任务分配方法, 保障了终端设备异构处理器协同推断的低延迟 和鲁棒性。 权利要求书3页 说明书12页 附图2页 CN 114117918 A 2022.03.01 CN 114117918 A 1.一种温度约束下的终端设备异构处 理器推断加速方法, 其特 征在于, 包括以下步骤: 步骤一: 构建温度约束下的终端设备动态频率设定模型, 分析工业生产环境下的终端 设备功耗控制与时钟频率约束关系, 通过实际测量环境温度、 设备功耗建模; 步骤二: 神经网络单层粒度并行方式选择, 刻画深度神经网络各层的计算量, 分析卷积 层、 池化层、 全连接层这三类常见层的数据结构与计算量, 结合异构处理器的计算方式和结 构特性, 估算每一层 在各处理器上的计算延迟, 从而确定深度神经网络单层并行 方法; 步骤三: 以步骤一、 二为基础, 提供深度神经网络推断过程的单层粒度计算负载划分, 具体包括: 首先, 考虑工业生产的高温环境, 根据步骤一建立的温度约束下的终端设备动态频率 模型, 设定设备处理器频率, 从而实现对设备功耗的限制以保持设备 的温度在合理工况区 间; 之后, 根据步骤二中设计的深度神经网络单层并行方法, 选定不同层及其组合的单层 粒度并行模式, 可选模式为数据并行与模型并行, 进一步考虑每层来自于将两个处理器的 输出结果合并造成的计算时间, 即并行后额外时延; 最后, 实现异构处理器的深度神经网络单层计算任务分配, 任务分配的目标为实现终 端设备推断总时延最小; 将温度约束 下的终端设备异构处理器推断加速问题转化为一个遵 从一定约束的优化问题, 并使用温度感知的动态频率算法TADF与单层异构处理器负载分配 算法HSWD算法对每层的计算任务进行负载分配, 使得每一层的推断时延最低。 2.根据权利要求1所述的温度约束下的终端设备异构处理器推断加速方法, 其特征在 于, 所述步骤一中构建温度约束下 的终端设备动态频率设定模型时, 基于建模关键参数终 端设备中异构处理器的频率fprocessor、 异构处理器功耗Pprocessor, 得出终端设备总功耗P; 基 于建模关键参数t时刻环境温度Teno(t)与设备温度T(t), 得出设备稳态运行温度T(∞); 异 构处理器的浮 点运算速度与设备 稳态运行温度遵循一定约束。 3.根据权利要求2所述的温度约束下的终端设备异构处理器推断加速方法, 其特征在 于, 所述步骤一具体包括如下 过程: 首先对智能终端设备特征进行建模, 对于一个配备有CPU和GPU的智能终端设备D, 该设 备中异构处理器的频率由处理器时钟频率fclock和每时钟周期浮点运算次数nprocessor表示, 即 和 处理器功耗与该处理器的时钟频率有关, 其中 Pprocessor=Ψ(fclock)3, Ψ(W/((周期/s))3)是一个由处理器架构决定的系数, 故处理器功耗 有如下表示: 其中, ΥC=ΨC/(nC)3, ΥG=ΨG/(nG)3; 另外, 设备待机功耗通过一个线性模型高精度地估计设备的待机功耗与环境以及 设备 电压之间的关系, 即Pidle=V( β1Teno+β0), 系数β1和β0与设备的性能有关, 故终端设备总 功耗 为: P=Pidle+PC+PG =V( β1Teno+β0)+ΥC(fC)3+ΥG(fG)3 由于环境温度Teno(t)与设备自身热功耗因素影响, 刻画当设备的处理器工作频率以及 环境温度保持稳定时, 设备长时间持续工作后将会达到稳定温度模型T(t →∞); 根据热电权 利 要 求 书 1/3 页 2 CN 114117918 A 2路模型, 将设备的温度表示为与设备功耗有关的函数, 当设备D以功率P运行时, t时刻设备 的温度表示 为: 其中, R(℃/W)和C(J/K)分别表示热阻和热容; 由此可得, 当t→∞时, 设备 稳定运行温度为: T(∞)=Teno(∞)+P·R =Teno(∞)+(Pidle+PC+PG)·R =(1+VRβ1)·Teno(∞)+RΥC·(fC)3+RΥG·(fG)3+VRβ0 =α1·Teno(∞)+α2·(fC)3+α3·(fG)3+α0 使设备的温度始终低于它的最大稳定工作温度Tmax; 相应地, 设备D中的CPU与GPU的浮 点运算速度应遵守约束: α2·(fC)3+α3·(fG)3≤Tmax‑α1·Teno(∞)‑α0.。 4.根据权利要求1所述的温度约束下的终端设备异构处理器推断加速方法, 其特征在 于, 所述步骤二中刻画深度神经网络中常见层的计算量W, 单独 分析每层在各个异构处理器 上的计算量 结合每层数据结构与计算特征, 选择单层粒度的数据并行或模型并 行。 5.根据权利要求2所述的温度约束下的终端设备异构处理器推断加速方法, 其特征在 于, 所述步骤二具体包括如下 过程: 首先, 对深度神经网络进行建模, 分别计算卷积层、 池化层、 全连接层的浮 点计算量W; 其次, 考虑上述三种网络层的单层粒度并行模式, 即数据并行与模型并行。 对于卷积层 和全连接层, 使用模 型并行方式对卷积核进 行划分; 对池化层的计算采用数据并行方式, 通 过对输入矩阵按照通道进行划分以实现并行。 6.根据权利要求1所述的温度约束下的终端设备异构处理器推断加速方法, 其特征在 于, 所述步骤三中实现异构处理器的深度神经网络单层计算任务分配时, 将分析终端设备 中异构处理器的性能以及深度神经网络中单层的结构特点, 对深度神经网络中的单层做计 算任务划分, 并行计算完成后再合并结果; 首先, 刻画神经网络每一层在CPU和GPU上的计算 量WC, WG, 然后分析在CPU和GPU上的推断时延 从而使用并行方式执行层 Li的延迟可以表示为 总时延由并行过程中最大的运行时间与计 算结果合并时间两 部分组成, 最终计算 Li层最短执 行时延ti: 其中, 是使用并行方式推断时合并两个处理器输出结果造 成的额外时延, 和 分别是仅使用CPU和GPU执 行层li所需时间。 7.根据权利要求1或6所述的温度约束下的终端设备异构处理器推断加速方法, 其特征 在于, 优化问题的求 解目标为符合问题设定的数 学模型约束的最小时延:权 利 要 求 书 2/3 页 3 CN 114117918 A 3

.PDF文档 专利 一种温度约束下的终端设备异构处理器推断加速方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种温度约束下的终端设备异构处理器推断加速方法 第 1 页 专利 一种温度约束下的终端设备异构处理器推断加速方法 第 2 页 专利 一种温度约束下的终端设备异构处理器推断加速方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:27:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。