专利 边缘计算任务处理方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210557780.4 (22)申请日 2022.05.19 (71)申请人郑州大学产业技术研究院有限公司地址 450000 河南省郑州市高新区长椿路 11号1号孵化楼810号申请人北京航空航天大学杭州创新研究院 (72)发明人任涛　胡哲源　牛建伟　孙钢灿　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师杜杨 (51)Int.Cl. G06F 9/445(2018.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称边缘计算任务处理方法、装置及电子设备 (57)摘要本发明实施例提出一种边缘计算任务处理方法、装置及电子设备，属于边缘计算领域，方法包括：根据预设的关于多个移动设备的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组卸载策略经验放入经验池，从而针对每个移动设备的待处理任务，根据移动设备的环境状态，从经验池中调取与环境状态匹配的目标经验，进而根据移动设备的环境状态和目标经验，利用预设的决策模型，得到移动设备的待处理任务的卸载决策，实现对于不同的移动设备的边缘计算环境，使用不同的目标经验和环境状态作为卸载决策的考虑因素，改善现有的任务计算卸载方法通常只适用于某一类边缘计算环境，对于不同边缘计算环境的适用性较差的问题。权利要求书3页说明书18页附图6页 CN 114968402 A 2022.08.30 CN 114968402 A 1.一种边缘计算任务处理方法，其特征在于，所述方法包括：根据预设的关于多个移动设备的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组所述卸载策略经验放入经验池；针对每个所述移动设备的待处理任务，根据所述移动设备的环境状态，从所述经验池中调取与所述环境状态匹配的目标经验；根据所述移动设备的环境状态和所述目标经验，利用预设的决策模型，得到所述移动设备的待处理任务的卸载决策。 2.根据权利要求1所述的边缘计算任务处理方法，其特征在于，所述根据所述移动设备的环境状态和所述目标经验，利用预设的决策模型，得到所述移动设备的待处理任务的决策动作的步骤，包括：基于所述目标经验和所述移动设备的环境状态，使用第二强化学习网络，获得第一状态转移元组；以所述第一状态转移元组和所述环境状态作为所述决策模型的输入，得到所述待处理任务的卸载决策。 3.根据权利要求2所述的边缘计算任务处理方法，其特征在于，所述决策模型包括第一编码器、第二编码器、评估器和第一解码器；所述以所述第一状态转移元组和所述环境状态作为所述决策模型的输入，得到所述待处理任务的决策动作的步骤，包括：以所述环境状态作为所述第一编码器的输入，得到策略向量；以所述第一状态转移元组和所述环境状态作为所述第二编码器的输入，得到状态转移向量；以所述策略向量和所述状态转移向量作为所述评估器的输入，得到优化后的策略向量；以所述优化后的策略向量作为所述第一解码器的输入，得到所述待处理任务的卸载决策。 4.根据权利要求1至3中任一项所述边缘计算任务的处理方法，其特征在于，所述方法还包括训练监督学习模型，得到决策模型的步骤，所述监督学习模型包括第一编码器、第一解码器、第二编码器、第二解码器和评估器；所述训练监督学习模型，得到决策模型的步骤，包括：基于所述卸载策略经验，得到多组状态动作，每组所述状态动作包括环境状态和决策动作；使用多组所述状态动作，迭代更新所述第一编码器和第一解码器的参数，直至满足第一结束条件；基于第二强化学习网络，利用所述卸载策略经验，得到关于各边缘计算环境的环境交互的第二状态转移元组；使用所述第二状态转移元组，迭代更新所述第二编码器和所述第二解码器的参数，直至满足第二结束条件；将训练完成的所述第一编码器的输出和所述第二编码器的输出作为所述评估器的输入，迭代更新所述评估器的参数，直至满足第三结束条件；权　利　要　求　书 1/3 页 2 CN 114968402 A 2基于训练完成的第一编码器、第一解码器、第二编码器和评估器，得到决策模型。 5.根据权利要求4所述的边缘计算任务处理方法，其特征在于，所述将训练完成的所述第一编码器的输出和所述第二编码器的输出作为所述评估器的输入，迭代更新所述评估器的参数，直至满足第三结束条件的步骤，包括：基于所有所述状态动作和所述卸载策略经验，计算出关于各类边缘计算环境的各个状态的平均动作价值量；每次迭代时，将训练完成的所述第一编码器的输出和所述第二编码器的输出作为所述评估器的输入，得到所述评估器预测的平均收益值，所述平均收益值表征当前边缘计算环境的多个状态的平均动作价值；计算出所述平均收益值与所述平均动作价值量间的损失值，若所述损失值满足第三结束条件，则结束迭代，否则继续迭代直至损失值满足第三结束条件。 6.根据权利要求1至3中任一项所述的边缘计算任务处理方法，其特征在于，所述根据所述移动设备的环境状态，从所述经验池中调取与所述环境状态匹配的目标经验的步骤，包括：采用聚类算法，将所述经验池中的所述卸载策略经验划分为多个策略族；计算所述环境状态与每个所述策略族间的距离，将所述多个策略族中所述距离最小的策略族作为目标策略族；从所述目标策略族中选取卸载策略经验作为目标经验。 7.根据权利要求1至3中任一项所述的边缘计算任务处理方法，其特征在于，所述方法还包括训练第一强化学习网络的步骤，该步骤包括：构建包括多个移动设备的边缘计算网络系统模型；基于所述边缘计算网络系统模型，构建关于计算成本的优化目标函数；基于所述移动边缘计算网络系统模型，构建第一强化学习网络，其中，所述第一强化学习网络包括顺序连接的图神经网络、演员网络、评论家网络和混合网络；结合所述优化目标函数，以及各移动设备的边缘计算环境的环境状态，训练所述第一强化学习网络。 8.根据权利要求7所述的边缘计算任务处理方法，其特征在于，所述优化目标函数包括成本优化函数、卸载模式约束、能耗约束、时延约束和发射功率约束；所述结合所述优化目标函数，以及各移动设备的边缘计算环境的环境状态，训练所述第一强化学习网络的步骤，包括：基于所述优化目标函数，构建损失函数；以各所述移动设备的边缘计算环境的环境状态作为第一强化学习网络的输入，结合所述损失函数，训练所述第一强化学习网络。 9.一种边缘计算任务处理装置，其特征在于，包括第一准备模块、第二准备模块和处理模块；所述第一准备模块，用于根据预设的关于多个移动设备的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组所述卸载策略经验放入经验池；所述第二准备模块，用于使针对每个所述移动设备的待处理任务，根据所述移动设备的环境状态，从所述经验池中调取与所述环境状态匹配的目标经验；权　利　要　求　书 2/3 页 3 CN 114968402 A 3

专利 边缘计算任务处理方法、装置及电子设备

专利边缘计算任务处理方法、装置及电子设备