(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210557780.4
(22)申请日 2022.05.19
(71)申请人 郑州大学产业技术研究院有限公司
地址 450000 河南省郑州市高新区长 椿路
11号1号孵化楼810号
申请人 北京航空航天大 学杭州创新研究院
(72)发明人 任涛 胡哲源 牛建伟 孙钢灿
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 杜杨
(51)Int.Cl.
G06F 9/445(2018.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
(54)发明名称
边缘计算任务处 理方法、 装置及电子设备
(57)摘要
本发明实施例提出一种边缘计算任务处理
方法、 装置及电子设备, 属于边缘计算领域, 方法
包括: 根据预设的关于多个移动设备的第一强化
学习网络, 获得各类边缘计算环 境的卸载策略经
验, 并将每组卸载策略经验放入经验池, 从而针
对每个移动设备的待处理任务, 根据移动设备的
环境状态, 从经验池中调取与环 境状态匹配的目
标经验, 进而根据移动设备的环 境状态和目标经
验, 利用预设的决策模型, 得到移动设备的待处
理任务的卸载决策, 实现对于不同的移动设备的
边缘计算环 境, 使用不同的目标经验和环境状态
作为卸载决策的考虑因素, 改善现有的任务计算
卸载方法通 常只适用于某一类边缘计算环境, 对
于不同边 缘计算环境的适用性较 差的问题。
权利要求书3页 说明书18页 附图6页
CN 114968402 A
2022.08.30
CN 114968402 A
1.一种边 缘计算任务处 理方法, 其特 征在于, 所述方法包括:
根据预设的关于多个移动设备的第 一强化学习网络, 获得各类边缘计算环境的卸载策
略经验, 并将每组所述卸载 策略经验放入经验 池;
针对每个所述移动设备的待处理任务, 根据所述移动设备的环境状态, 从所述经验池
中调取与所述环境状态匹配的目标 经验;
根据所述移动设备的环境状态和所述目标经验, 利用预设的决策模型, 得到所述移动
设备的待处 理任务的卸载决策。
2.根据权利要求1所述的边缘计算任务处理方法, 其特征在于, 所述根据 所述移动设备
的环境状态和所述 目标经验, 利用预设的决策模型, 得到所述移动设备 的待处理任务的决
策动作的步骤, 包括:
基于所述目标经验和所述移动设备的环境状态, 使用第二强化学习 网络, 获得第一状
态转移元组;
以所述第一状态转移元组和所述环境状态作为所述决策模型的输入, 得到所述待处理
任务的卸载决策。
3.根据权利要求2所述的边缘计算任务处理方法, 其特征在于, 所述决策模型包括第 一
编码器、 第二编码器、 评估器和第一 解码器;
所述以所述第 一状态转移元组和所述环境状态作为所述决策模型的输入, 得到所述待
处理任务的决策动作的步骤, 包括:
以所述环境状态作为所述第一编码器的输入, 得到策略向量;
以所述第一状态转移元组和所述环境状态作为所述第 二编码器的输入, 得到状态转移
向量;
以所述策略向量和所述状态转移向量作为所述评估器的输入, 得到优化后的策略向
量;
以所述优化后的策略向量作为所述第 一解码器的输入, 得到所述待处理任务的卸载 决
策。
4.根据权利要求1至3中任一项所述边缘计算任务的处理方法, 其特征在于, 所述方法
还包括训练监督学习模型, 得到决策模 型的步骤, 所述监督学习模型包括第一编 码器、 第一
解码器、 第二编码器、 第二 解码器和评估器;
所述训练监 督学习模型, 得到决策模型的步骤, 包括:
基于所述卸载策略经验, 得到多组状态动作, 每组所述状态动作包括环境状态和决策
动作;
使用多组所述状态动作, 迭代更新所述第一编码器和第一解码器的参数, 直至满足第
一结束条件;
基于第二强化学习 网络, 利用所述卸载策略经验, 得到关于各边缘计算环境的环境交
互的第二状态转移元组;
使用所述第二状态转移元组, 迭代更新所述第二编码器和所述第二解码器的参数, 直
至满足第二结束条件;
将训练完成的所述第一编码器的输出和所述第二编码器的输出作为所述评估器的输
入, 迭代更新所述评估器的参数, 直至满足第三结束条件;权 利 要 求 书 1/3 页
2
CN 114968402 A
2基于训练完成的第一编码器、 第一 解码器、 第二编码器和评估器, 得到决策模型。
5.根据权利要求4所述的边缘计算任务处理方法, 其特征在于, 所述将训练完成的所述
第一编码器的输出和所述第二编码器的输出作为所述评估器的输入, 迭代更新所述评估器
的参数, 直至满足第三结束条件的步骤, 包括:
基于所有所述状态动作和所述卸载策略经验, 计算出关于各类边缘计算环境的各个状
态的平均动作价 值量;
每次迭代时, 将训练完成的所述第 一编码器的输出和所述第 二编码器的输出作为所述
评估器的输入, 得到所述评估器预测的平均收益值, 所述平均收益值表征当前边缘计算环
境的多个 状态的平均动作价 值;
计算出所述平均收益值与 所述平均动作价值量间的损失值, 若所述损失值满足第 三结
束条件, 则结束迭代, 否则继续迭代直至损失值满足第三结束条件。
6.根据权利要求1至3中任一项所述的边缘计算任务处理方法, 其特征在于, 所述根据
所述移动设备 的环境状态, 从所述经验池中调取与所述环境状态匹配的目标经验的步骤,
包括:
采用聚类算法, 将所述经验 池中的所述卸载 策略经验划分为多个策略族;
计算所述环境状态与每个所述策略族 间的距离, 将所述多个策略族中所述距离最小的
策略族作为目标 策略族;
从所述目标 策略族中选取卸载 策略经验作为目标 经验。
7.根据权利要求1至3中任一项所述的边缘计算任务处理方法, 其特征在于, 所述方法
还包括训练第一强化学习网络的步骤, 该步骤 包括:
构建包括多个移动设备的边 缘计算网络系统模型;
基于所述 边缘计算网络系统模型, 构建 关于计算成本的优化目标函数;
基于所述移动边缘计算网络系统模型, 构建第 一强化学习网络, 其中, 所述第 一强化学
习网络包括 顺序连接的图神经网络、 演员网络、 评论家网络和混合网络;
结合所述优化目标函数, 以及各移动设备的边缘计算环境的环境状态, 训练所述第一
强化学习网络 。
8.根据权利要求7所述的边缘计算任务处理方法, 其特征在于, 所述优化目标函数包括
成本优化 函数、 卸载模式约束、 能耗约束、 时延约束和发射功率约束;
所述结合所述优化目标函数, 以及各移动设备的边缘计算环境的环境状态, 训练所述
第一强化学习网络的步骤, 包括:
基于所述优化目标函数, 构建损失函数;
以各所述移动设备的边缘计算环境的环境状态作为第 一强化学习网络的输入, 结合所
述损失函数, 训练所述第一强化学习网络 。
9.一种边缘计算任务处理装置, 其特征在于, 包括第 一准备模块、 第 二准备模块和处理
模块;
所述第一准备模块, 用于根据预设的关于多个移动设备的第一强化学习 网络, 获得各
类边缘计算环境的卸载 策略经验, 并将每组所述卸载 策略经验放入经验 池;
所述第二准备模块, 用于使针对每个所述移动设备的待处理任务, 根据所述移动设备
的环境状态, 从所述经验 池中调取与所述环境状态匹配的目标 经验;权 利 要 求 书 2/3 页
3
CN 114968402 A
3
专利 边缘计算任务处理方法、装置及电子设备
安全报告 >
其他 >
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:07:45上传分享