(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111390810.9
(22)申请日 2021.11.23
(71)申请人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
(72)发明人 赵东 马华东 孙壬辛 丁立戈
(74)专利代理 机构 北京挺立专利事务所(普通
合伙) 11265
代理人 吴彩凤 高福勇
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种多无人机移动基站协同部署及调度方
法
(57)摘要
本发明公开了一种多无人机移动基站协同
部署及调度方法, 基于深度强化学习, 将网络服
务区域均匀地划分为较小的网格和较大的区块,
使用仿真软件获得区域的模拟吞吐量, 在每个调
度时间区间, 使用基于深度强化学习的多无人机
移动基站协同部署模块, 找到能够提供较高吞吐
量的区块的集合; 使用基于深度强化学习的多无
人机移动基站协同调度模块, 规划无人机扫描能
够提供较高吞吐量的区块的集合的路线, 在无人
机能量不足时及时充电; 无人机在扫描完成后,
在最高吞吐量的网格处悬停提供服务, 直到这个
调度时间区间结束; 重复以上步骤, 直到整个网
络服务的任务完成。 本发明以较少的执行时间达
到较好的效果, 最大限度地提供总服务时间及更
好的工作负载平衡 。
权利要求书2页 说明书6页 附图1页
CN 114091754 A
2022.02.25
CN 114091754 A
1.一种多无人机移动基站协同部署及调度方法, 其特征在于, 将网络服务区域均匀地
划分为10m ×10m的网格和20m ×20m区块, 即一个区块中包含4个网格, 使用仿 真软件获得区
域的模拟吞吐量, 包括以下步骤:
S1、 在每个调度时间区间, 使用基于深度强化学习的多无人机移动 基站协同部署模块,
找到提供有效吞吐量 最高的前 K个区块的集 合, K为无 人机的个数;
S2、 使用基于深度强化学习的多无人机移动基站协同调度模块, 规划无人机扫描提供
有效吞吐量 最高的前 K个的区块的集 合的路线, 并在无 人机能量 不足时及时充电;
S3、 无人机在扫描完成后, 在最高吞吐量的网格处悬停提供服务, 直到这个调度时间区
间结束;
S4、 重复以上步骤, 直到整个网络服 务的任务完成。
2.根据权利要求1所述的多无人机移动 基站协同部署及调度 方法, 其特征在于, 步骤S1
中的基于深度强化学习的多无人机移动基站协同部署模块包括四个核心元素的强化学习
任务, 四个核心 元素分别是状态空间
动作空间A、 奖励函数R和折扣因子γ; 状态空间
用
来描述当前时刻环境的状态, 在调度时间Tt, 状态空间St表示为St=(LU,LC,ST), 其中, LU表
示当前时刻所有无人机的位置分布, LC表示当前时刻所有用户的分布, ST表示当前时刻区
域的模拟 吞吐量; 动作空间A表示无人机可选择的扫描区块集合, 动作空间A表示为A={ CHl
|l=1,2, …,L}, 在调度时间Tt, 从A中选择一个动作at作为无人机扫描的区块, 被选择过的
区块选择概率被设置为0; 对于状态St, 当执行动作at后, 系统进入下一个状态S ′t并且返回
一个奖励值r(St,at), 奖励值r(St,at)是选择的区域 块带来的吞吐量差值。
3.根据权利要求2所述的多无人机移动 基站协同部署及调度 方法, 其特征在于, 步骤S1
中的基于深度强化学习的多无 人机移动基站 协同部署模块的训练过程如下:
第一步, 用随机权重θ和 θ ′=θ对评价网络Q和目标网络Q ′进行初始化, 初始化重现记忆
库D容量为N;
第二步, 在每个时刻t, 分别为K台无人机选择服务的位置: 从环境中获得当前状态St=
(LU,LC,ST), 当随机值小于epsi lon时, 随机 选择动作at, 否则at=argmaxaQ(st,a; θ );
第三步, 执行动作at将获得奖励值r(St,at), 此时状态更新为S ′t, 将(St,at,r(St,at),
S′t)存入重现记忆库D, 并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j), 令yj=rj+γ
argmaxa′Q′(sj+1,a′; θ′), 通过最小化损失函数
更新权重θ,
每选择C次动作, 通过令Q ′=Q更新Q′;
第四步, 重复第二 步和第三 步, 直到模型收敛。
4.根据权利要求1所述的多无人机移动 基站协同部署及调度 方法, 其特征在于, 步骤S1
中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同
的神经网络: 评价网络Q和目标网络Q ′, 其中评价网络Q的更新频率高于目标网络Q ′。
5.根据权利要求1所述的多无人机移动 基站协同部署及调度 方法, 其特征在于, 步骤S1
中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层组成, 包括批
标准化层、 卷积层和两层全连接层, 使用的激活函数为Relu。
6.根据权利要求1所述的多无人机移动 基站协同部署及调度 方法, 其特征在于, 步骤S2
中的基于深度强化学习的多无人机移动基站协同调度模块包括四个核心元素的强化学习权 利 要 求 书 1/2 页
2
CN 114091754 A
2任务, 四个核心元素分别是状态空间
动作空间A、 奖励函数R和折扣因子γ; 状态空间
用
来描述当前时刻 环境的状态, 在调度时间Tt, 状态空间St表示为St=(St1,St2), 其中, St1表示
全局状态, 包括当前时刻需要扫描的网格 位置SGt、 需要扫描的网格的扫描状态Xt、 其他无人
机的位置U ′loc和剩余电量U ′elec、 充电站的位置Lcharge和需要充的电量Echarge; St2表示局部状
态, 包括当前调度无人机的位置
电量
前往扫描网格和充电站所需的能耗UPtu
和UCtu; 动作空间表示无人机可执行的任务, 包括充电站和需扫描的网格, 动 作空间A表示为
A=(G,CS), 其中G表示所有网格的集合, CS表示所有充电站的集合, 在调度时间Tt, 从A中选
择一个动作at作为无人机执行的任务, 被选择过的网格或不需要扫描的网格选择概率被设
置为0; 对于状态St, 当执行动作at后, 系统进入下一个状态S ′t并且返回一个奖励值rt, rt表
示为:
当动作是网格时, x=1,y=0; 否则, x=0,y=1; 当该动作使无人机耗尽能量时, γ是惩
罚值, UPtu[at]和UCtu[at]是无人机uk移动到at的能耗, UPtu[at]对应的at是需要扫描的网格,
UCtu[at]对应的at是充电站。
7.根据权利要求6所述的多无人机移动 基站协同部署及调度 方法, 其特征在于, 步骤S2
中的基于深度强化学习的多无 人机移动基站 协同调度模块的训练过程如下:
第一步, 用随机权重θ和 θ ′=θ对评价网络Q和目标网络Q ′进行初始化, 初始化重现记忆
库D容量为N;
第二步, 在每个时刻t, 为当前可调度的无人机规划移动路径: 如果所有扫描任务都已
完成, 停止规划路径; 否则, 从环境中获得当前状态St=(St1,St2), 当随机值小于epsilon时,
随机选择动作at, 否则at=argmaxaQ(st,a; θ );
第三步, 执行动作at将获得奖励值r(St,at), 此时状态更新为S ′t, 将(St,at,r(St,at),
S′t)存入重现记忆库D, 并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j), 令yj=rj+γ
argmaxa′Q′(sj+1,a′; θ′), 通过最小化损失函数
更新权重θ;
每选择C次动作, 通过令Q ′=Q更新Q′;
第四步, 重复第二 步、 第三步, 直到模型收敛。
8.根据权利要求1所述的多无人机移动 基站协同部署及调度 方法, 其特征在于, 步骤S2
中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同
的神经网络: 评价网络Q和目标网络Q ′, 其中评价网络Q的更新频率高于目标网络Q ′。
9.根据权利要求1所述的多无人机移动 基站协同部署及调度 方法, 其特征在于, 步骤S2
中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层全连接层组
成, 使用的激活函数为Relu。权 利 要 求 书 2/2 页
3
CN 114091754 A
3
专利 一种多无人机移动基站协同部署及调度方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:16:34上传分享