专利面向深度学习Transformer类模型的移动设备协同推断系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210547606.1 (22)申请日 2022.05.20 (65)同一申请的已公布的文献号申请公布号 CN 114662690 A (43)申请公布日 2022.06.24 (73)专利权人南京大学地址 210000 江苏省南京市栖霞区仙林大道163号 (72)发明人许封元　吴昊　柯晓鹏　赵鑫　姚荣春　 (74)专利代理机构南京苏创专利代理事务所 (普通合伙) 32273 专利代理师王晶杰 (51)Int.Cl. G06N 3/10(2006.01) G06F 9/50(2006.01) G06F 11/34(2006.01)H04L 41/042(2022.01) H04L 41/044(2022.01) H04L 41/08(2022.01) H04L 41/16(2022.01) H04W 84/18(2009.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 5/04(2006.01) (56)对比文件 CN 114064280 A,202 2.02.18 CN 114117918 A,202 2.03.01 CN 112990018 A,2021.0 6.18 EP 3705953 A1,2020.09.09 杨洋等.深度学习在软件定义网络研究中的应用综述. 《软件学报》 .2020,(第07期),第258- 278页. 审查员任俊鹏 (54)发明名称面向深度学习Tran sformer类模型的移动设备协同推断系统 (57)摘要本发明涉及一种面向深度学习Tran sformer 类模型的移动设备协同推断系统，包括如下步骤：准备阶段：评估可用硬件资源，确定切分粒度，切片并分发至各设备。部署阶段：通过DNS组网来控制设备进行异构设备的协同推断。各待推断设备均部署推断服务程序。控制节点发送待推断样本到各设备，当前节点将中间结果传递至负责下一个模型切片的节点，以此类推，直至最后一个节点完成推理，再将最终结果发送给控制节点输出。避免因为整个Transformer模型占用空间较大而单个设备不能运行。权利要求书2页说明书11页附图4页 CN 114662690 B 2022.09.13 CN 114662690 B 1.一种面向深度学习Transformer类模型的移动设备协同推断系统，其特征在于：包括如下步骤：步骤1：准备阶段：对设备进行设备性能评估测试，将准备部署的模型切片，分派至不同移动端设备上；步骤1.1：评估移动端设备的可用硬件资源：获取每一待使用设备的硬件信息；步骤1.2：确定切分粒度：结构分析Transformer模型，结合步骤1.1中得到的各待使用设备硬件信息，分析得到适配的模型切分粒度；步骤1.3：进行切片：根据步骤1.2中得到的模型切分粒度，对Transformer模型进行切分，得到若干模型切片；步骤1.4：分发切片：对步骤1.3中的模型切片通过分发算法进行分发至各待使用设备；步骤2：部署阶段：通过S DN组网来控制设备进行异构设备的协同推断；步骤2.1： SDN组网：从各设备中确定参与深度学习的待推断设备，使用SDN进行组网，保证连入同一网络，使用网络处理能力最强的设备作为控制节点，部署SDN控制程序，所有节点均参与协同推理，各待推断设备均部署推断服务程序；步骤2.2：当有深度学习推断的需求时，请求推断服务的请求发起程序向步骤2.1中节点中的控制节点发送提供服务的请求；步骤2.3：控制节点与其他节点进行通信，确保步骤2.1中的所有节点正常进行协同推断服务；步骤2.4：请求发起程序将待推断样本发送至控制节点，控制节点发送待推断样本到各待推断设备，即各其他节点；步骤2.5：当前节点按照给定顺序将中间结果传递至负责下一个模型切片的节点，以此类推，直至最后一个模型切片的节点完成推理，再将最终结果发送给控制节点；步骤2.6：控制节点将步骤2.5得到的最终结果输出。 2.根据权利要求1所述的面向深度学习Transformer类模型的移动设备协同推断系统，其特征在于：所述步骤1.1中的硬件信息包括内存、储存空间， cpu计算频率。 3.根据权利要求1所述的面向深度学习Transformer类模型的移动设备协同推断系统，其特征在于：所述步骤1.4中分发算法的步骤为：在各设备上使用各模型切片进行测试，推理出实际所需的时间开销，查找当前负载最小的设备并将模型切片分配到这个设备上，所述负载最小的设备指运行当前已分配的模型切片需要的时间最少的设备。 4.根据权利要求3所述的面向深度学习Transformer类模型的移动设备协同推断系统，其特征在于：所述分发算法具体步骤为：步骤1.4.1：初始化：输入待拆分模型，使用Transformer模型，用数组T来记录各个设备所分配任务的预估计算时间开销，为设备i所分配任务的预估计算时间开销，开始前将数组T初始化为全0，用数组Workload来记录各个设备所被分配到的模型分片， Workload[i] 是一个集合，表示设备i被分配到的所有模型切片，对所有模型切片记作model_sl ices；步骤1.4.2：将所有模型切片进行分发，对于model_slices中的每一个模型切片，进行以下步骤：找到当前任务负担最小的设备i，即的值在T中最小，将此模型切片加入到设备i所分配的任务集合中，即得到更新的W orkload[i]；步骤1.4.3：在更新Workload[i]后，通过对测试评估过程中测得的数据进行查表的方权　利　要　求　书 1/2 页 2 CN 114662690 B 2式，来更新设备i所分配任务的预估时间开销，用Estimate_time表示在测试记录中查询设备i运行Workload[i]任务时测得的时间开销，如果设备不能承担所分配的任务，则将赋值为一个无限大值；步骤1.4.4：在分配完成后，找到最小的设备，将最大设备上的模型切片移动到这个设备上来降低数组T中的最大值，不断重复此过程直到不能降低T中最大值为止；步骤1.4.5：检测是否有设备i无法承担所分配的模型切片的推断任务，即检查中是否有无限大值，如有，则表明模型过大，整个系统即便协同起来也无法运行该模型，程序终止。 5.根据权利要求1所述的面向深度学习Transformer类模型的移动设备协同推断系统，其特征在于：所述步骤2使用ONNX+运行时环境来屏蔽底层异构系统的差异性，使用软件定义网络技术抽象异构设备的底层差异和网络状况。 6.根据权利要求5所述的面向深度学习Transformer类模型的移动设备协同推断系统，其特征在于：所述软件定义网络技术使用onos控制SDN控制层，使用ovs控制SDN转发层，将 SDN控制层与S DN转发层部署在同一节点上，其他节点通过vxlan与此控制节点进行相连。权　利　要　求　书 2/2 页 3 CN 114662690 B 3

专利 面向深度学习Transformer类模型的移动设备协同推断系统

专利面向深度学习Transformer类模型的移动设备协同推断系统