全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210619336.0 (22)申请日 2022.06.02 (71)申请人 北京建筑大学 地址 100044 北京市西城区展览馆路1号 (72)发明人 魏楚元 何航 任涛  (74)专利代理 机构 北京荟英捷创知识产权代理 事务所(普通 合伙) 11726 专利代理师 张阳 (51)Int.Cl. H04W 72/04(2009.01) H04W 4/40(2018.01) G06F 9/445(2018.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 移动边缘计算网络的计算卸载优化方法、 装 置及系统 (57)摘要 本发明提供了一种移动边缘计算网络的计 算卸载优化方法、 装置及系统, 其基于深度强化 学习的分布式执行 ‑集中式卸载框架, 降低求解 原目标优化问题的计算时间复杂度, 避免了传统 数值优化算法在大规模异构移动边缘计算网络 中可能会面临的维数灾难; 通过定义损失函数、 优势函数以及多智能体强化学习算法, 提高数据 的采样效率和模 型的训练速度, 减少网络中的平 均系统成本, 提高了计算密集型应用的服务质 量。 权利要求书3页 说明书12页 附图2页 CN 114698125 A 2022.07.01 CN 114698125 A 1.一种移动边缘计算网络的计算卸载优化方法, 其特征在于, 所述移动边缘计算网络 包括地面车辆、 无 人机, 所述方法包括: 构建所述移动边缘计算网络的系统模型, 以及确定所述模型的基于平均系统成本最小 化的优化目标函数; 根据马尔科夫决策模型的状态、 动作和奖励要素, 将所述基于平均系统成本小化的优 化目标函数转 化为基于平均奖励最大化的优化目标函数; 确定多智能体深度强化学习的分布式执行和集中式训练框架, 以及确定训练 的损失函 数和优势函数; 根据多智能体强化学习算法执 行所述系统模型的训练。 2.根据权利要求1所述的方法, 其特征在于, 所述构建所述移动边缘计算网络的系统模 型, 包括: 建立包括多个地 面车辆、 无 人机及移动设备的网络模型; 根据所述网络模型建立通信模型, 所述通信模型包括移动设备 ‑地面车辆信道模型及 移动设备 ‑无人机信道模型; 根据所述通信模型建立计算模型, 所述计算模型包括本地计算成本、 地面车辆边缘计 算成本及无 人机边缘计算成本的计算。 3.根据权利要求2所述的方法, 其特征在于, 所述确定所述模型的基于平均系统成本最 小化的优化目标函数, 包括: 根据所述本地计算成本、 所述地面车辆边缘计算成本及所述无人机边缘计算成本, 确 定所有移动设备在多个时间片中的平均系统成本; 联立所述移动设备的卸载决策变量, 使所述平均系统成本最小得到优化目标函数。 4.根据权利要求1所述的方法, 其特征在于, 所述根据马尔科夫决策模型的状态、 动作 和奖励要 素, 将所述基于平均系统成本小化的优化目标函数转化为基于平均奖励最大化的 优化目标函数, 包括: 根据马尔科夫 决策模型的状态、 动作和奖励要素, 确定移动设备在多个时间片的轨迹, 以及计算所述轨迹发生的概率及总奖励; 所述状态包括移动设备的任务信息、 信道状态、 电 量信息, 所述动作包括移动设备的卸载指示、 传输功率、 分配的计算能力; 根据所述轨迹发生的概率及所述总奖励计算平均 奖励, 以及确定基于所述平均奖励最 大化的优化目标函数。 5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述确定多智能体深度强化学习 的分布式执 行和集中 式训练框架, 以及确定训练的损失函数和优势函数, 包括: 基于Actor ‑Critic算法搭建多智能体深度强化学习的分布式执 行和集中 式训练框架; 使用广义优势估计代替总奖励, 确定优势函数, 以及使用离线策略替换在线策略, 确定 损失函数。 6.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述根据多智能体强化学习算法 执行所述系统模型的训练, 包括: 各移动设备基于观察到的局部状态与所述移动边缘计算网络交互, 生成批量学习经 验; 根据广义优势估计及重要性采样, 基于所述批量学习经验训练共享策略;权 利 要 求 书 1/3 页 2 CN 114698125 A 2各所述移动设备共享所述共享策略与所述移动边 缘计算网络交 互。 7.根据权利要求 4所述的方法, 其特 征在于, 移动设备 i在时间片 n的状态表示为: 其中, 表示输入数据大小, 表示完成1比特任务所需的时钟周期数, 表示完 成任务 的最大容许延迟, 表示移动设备 i在时间片 n的当前剩余电量, 表示移动 设备 和地面车辆 在时间片 的信道增益, 表示移动设备 和无人机k在时间片 的信道 增益; 移动设备 i在时间片 n的动作表示 为: 其中, 表示移动设备 在时间片 的卸载决策变量, 表示移动设备 在时间片 的发射 功率, 表示移动设备 在时间片 的本地计算资源, 表示移动设备 在时间片 的地面 车辆计算资源, 表示移动设备 在时间片 的无人机计算资源; 移动设备 i在时间片 n的奖励表示 为: 其中, 为移动设备 在时间片 的系统成本; 移动设备 i在N个时间片的轨 迹表示为: 轨迹发生的概 率和总奖励分别表示 为: 其中, 表示状态 发生的概 率, 表示Actor的网络参数; 平均奖励表示 为: 其中,E表示期望; 基于最大化平均奖励的优化目标函数表示 为: 。权 利 要 求 书 2/3 页 3 CN 114698125 A 3

.PDF文档 专利 移动边缘计算网络的计算卸载优化方法、装置及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 移动边缘计算网络的计算卸载优化方法、装置及系统 第 1 页 专利 移动边缘计算网络的计算卸载优化方法、装置及系统 第 2 页 专利 移动边缘计算网络的计算卸载优化方法、装置及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:06:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。