专利一种多无人机移动基站协同部署及调度方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111390810.9 (22)申请日 2021.11.23 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人赵东　马华东　孙壬辛　丁立戈　 (74)专利代理机构北京挺立专利事务所(普通合伙) 11265 代理人吴彩凤　高福勇 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/06(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种多无人机移动基站协同部署及调度方法 (57)摘要本发明公开了一种多无人机移动基站协同部署及调度方法，基于深度强化学习，将网络服务区域均匀地划分为较小的网格和较大的区块，使用仿真软件获得区域的模拟吞吐量，在每个调度时间区间，使用基于深度强化学习的多无人机移动基站协同部署模块，找到能够提供较高吞吐量的区块的集合；使用基于深度强化学习的多无人机移动基站协同调度模块，规划无人机扫描能够提供较高吞吐量的区块的集合的路线，在无人机能量不足时及时充电；无人机在扫描完成后，在最高吞吐量的网格处悬停提供服务，直到这个调度时间区间结束；重复以上步骤，直到整个网络服务的任务完成。本发明以较少的执行时间达到较好的效果，最大限度地提供总服务时间及更好的工作负载平衡。权利要求书2页说明书6页附图1页 CN 114091754 A 2022.02.25 CN 114091754 A 1.一种多无人机移动基站协同部署及调度方法，其特征在于，将网络服务区域均匀地划分为10m ×10m的网格和20m ×20m区块，即一个区块中包含4个网格，使用仿真软件获得区域的模拟吞吐量，包括以下步骤： S1、在每个调度时间区间，使用基于深度强化学习的多无人机移动基站协同部署模块，找到提供有效吞吐量最高的前 K个区块的集合， K为无人机的个数； S2、使用基于深度强化学习的多无人机移动基站协同调度模块，规划无人机扫描提供有效吞吐量最高的前 K个的区块的集合的路线，并在无人机能量不足时及时充电； S3、无人机在扫描完成后，在最高吞吐量的网格处悬停提供服务，直到这个调度时间区间结束； S4、重复以上步骤，直到整个网络服务的任务完成。 2.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S1 中的基于深度强化学习的多无人机移动基站协同部署模块包括四个核心元素的强化学习任务，四个核心元素分别是状态空间动作空间A、奖励函数R和折扣因子γ；状态空间用来描述当前时刻环境的状态，在调度时间Tt，状态空间St表示为St＝(LU,LC,ST)，其中， LU表示当前时刻所有无人机的位置分布， LC表示当前时刻所有用户的分布， ST表示当前时刻区域的模拟吞吐量；动作空间A表示无人机可选择的扫描区块集合，动作空间A表示为A＝{ CHl |l＝1,2, …,L}，在调度时间Tt，从A中选择一个动作at作为无人机扫描的区块，被选择过的区块选择概率被设置为0；对于状态St，当执行动作at后，系统进入下一个状态S ′t并且返回一个奖励值r(St,at)，奖励值r(St,at)是选择的区域块带来的吞吐量差值。 3.根据权利要求2所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S1 中的基于深度强化学习的多无人机移动基站协同部署模块的训练过程如下：第一步，用随机权重θ和 θ ′＝θ对评价网络Q和目标网络Q ′进行初始化，初始化重现记忆库D容量为N；第二步，在每个时刻t，分别为K台无人机选择服务的位置：从环境中获得当前状态St＝ (LU,LC,ST)，当随机值小于epsi lon时，随机选择动作at，否则at＝argmaxaQ(st,a； θ )；第三步，执行动作at将获得奖励值r(St,at)，此时状态更新为S ′t，将(St,at,r(St,at), S′t)存入重现记忆库D，并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j)，令yj＝rj+γ argmaxa′Q′(sj+1,a′； θ′)，通过最小化损失函数更新权重θ，每选择C次动作，通过令Q ′＝Q更新Q′；第四步，重复第二步和第三步，直到模型收敛。 4.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S1 中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络：评价网络Q和目标网络Q ′，其中评价网络Q的更新频率高于目标网络Q ′。 5.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S1 中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层组成，包括批标准化层、卷积层和两层全连接层，使用的激活函数为Relu。 6.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S2 中的基于深度强化学习的多无人机移动基站协同调度模块包括四个核心元素的强化学习权　利　要　求　书 1/2 页 2 CN 114091754 A 2任务，四个核心元素分别是状态空间动作空间A、奖励函数R和折扣因子γ；状态空间用来描述当前时刻环境的状态，在调度时间Tt，状态空间St表示为St＝(St1,St2)，其中， St1表示全局状态，包括当前时刻需要扫描的网格位置SGt、需要扫描的网格的扫描状态Xt、其他无人机的位置U ′loc和剩余电量U ′elec、充电站的位置Lcharge和需要充的电量Echarge； St2表示局部状态，包括当前调度无人机的位置电量前往扫描网格和充电站所需的能耗UPtu 和UCtu；动作空间表示无人机可执行的任务，包括充电站和需扫描的网格，动作空间A表示为 A＝(G,CS)，其中G表示所有网格的集合， CS表示所有充电站的集合，在调度时间Tt，从A中选择一个动作at作为无人机执行的任务，被选择过的网格或不需要扫描的网格选择概率被设置为0；对于状态St，当执行动作at后，系统进入下一个状态S ′t并且返回一个奖励值rt， rt表示为：当动作是网格时， x＝1,y＝0；否则， x＝0,y＝1；当该动作使无人机耗尽能量时， γ是惩罚值， UPtu[at]和UCtu[at]是无人机uk移动到at的能耗， UPtu[at]对应的at是需要扫描的网格， UCtu[at]对应的at是充电站。 7.根据权利要求6所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S2 中的基于深度强化学习的多无人机移动基站协同调度模块的训练过程如下：第一步，用随机权重θ和 θ ′＝θ对评价网络Q和目标网络Q ′进行初始化，初始化重现记忆库D容量为N；第二步，在每个时刻t，为当前可调度的无人机规划移动路径：如果所有扫描任务都已完成，停止规划路径；否则，从环境中获得当前状态St＝(St1,St2)，当随机值小于epsilon时，随机选择动作at，否则at＝argmaxaQ(st,a； θ )；第三步，执行动作at将获得奖励值r(St,at)，此时状态更新为S ′t，将(St,at,r(St,at), S′t)存入重现记忆库D，并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j)，令yj＝rj+γ argmaxa′Q′(sj+1,a′； θ′)，通过最小化损失函数更新权重θ；每选择C次动作，通过令Q ′＝Q更新Q′；第四步，重复第二步、第三步，直到模型收敛。 8.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S2 中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络：评价网络Q和目标网络Q ′，其中评价网络Q的更新频率高于目标网络Q ′。 9.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S2 中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层全连接层组成，使用的激活函数为Relu。权　利　要　求　书 2/2 页 3 CN 114091754 A 3

专利 一种多无人机移动基站协同部署及调度方法

专利一种多无人机移动基站协同部署及调度方法