专利一种基于多智能体强化学习的动态跳波束与波束带宽分配方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111527204.7 (22)申请日 2021.12.14 (71)申请人清华大学地址 100084 北京市海淀区清华园 (72)发明人倪祖耀　林志远　张树英　匡麟玲　 (74)专利代理机构北京众合诚成知识产权代理有限公司 1 1246 代理人陈波 (51)Int.Cl. H04W 72/04(2009.01) H04W 84/06(2009.01) G06F 30/27(2020.01) G06N 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多智能体强化学习的动态跳波束与波束带宽分配方法 (57)摘要本发明公开了一种基于多智能体强化学习的动态跳波束与带宽分配方法，通过每个智能体负责一个卫星波束的照射方向或者波束的带宽大小，各智能体之间协作完成动态跳波束与带宽分配任务。该方法既有效利用了波束资源的时、空、频三个自由度，又相较于单智能体强化学习降低了决策空间的复杂度，在吞吐率以及时延公平性方面性能优异，且具有一定的鲁棒性。权利要求书2页说明书6页附图5页 CN 114189939 A 2022.03.15 CN 114189939 A 1.一种基于多智能体强化学习的动态跳波束与波束带宽分配方法，用于卫星波束在时间、空间和频率三个维度上的资源分配，其特征在于，该方法包括以下步骤：步骤1、获取卫星通信系统参数，包括波束数量K、地面小区数量N、卫星总发射功率、卫星高度、卫星带宽资源块数以及每个卫星宽带资源块的带宽；步骤2、构建多智能体强化学习仿真系统模型，并对构建的仿真系统模型进行离线训练；步骤3、将步骤2中训练好的仿真系统模型部署到运控中心或者星上载荷；步骤4、所述运控中心或者星上载荷将每个时隙下每个小区的实时业务队列大小输入被部署到其上的所述训练好的仿真系统模型，从而得到该时隙每个波束的照射位置以及所分配的带宽大小。 2.根据权利要求1所述的动态跳波束与波束带宽分配方法，其特征在于，步骤2中所述多智能体强化学习仿真系统模型，包括多个强化学习智能体、多个经验池以及卫星跳波束仿真环境。 3.根据权利要求1或2所述的动态跳波束与波束带宽分配方法，其特征在于，步骤2中所述多智能体强化学习仿真系统模型中，一个卫星波束对应两个智能体，分别负责该卫星波束的照射方向和带宽分配，所述两个智能体中的每个智能体分别包含两个神经网络和一个经验池，其中所述两个神经网络是目标网络和Q网络。 4.根据权利要求1所述的动态跳波束与波束带宽分配方法，其特征在于，步骤2中所述多智能体强化学习仿真系统模型，其工作流程包括以下子步骤：步骤S21、初始化2K个神经网络参数以及2K个经验池；初始化每个小区的业务到达率；将环境初始状态设置为第一个时隙每个地面小区的业务大小；将贪婪系数 ε设置为1；步骤S22、开始执行循环过程，该循环过程包括M次大循环，每次大循环包含T次小循环；其中，第t次小循环过程包括以下子进程： i.用每个智能体观测全局状态st，定义为其中，表示第n个小区在第t个时隙的总业务大小； ii.将全局状态st输入到所述每个智能体的Q网络，第k个智能体根据 ε ‑贪婪算法做出决策该决策是指波束的照射位置或者带宽资源块个数； iii.根据每个智能体的决策以及链路预算，计算每个卫星波束的传输容量，然后对第t 个时隙所照射小区的业务进行传输，并更新第t+1个时隙的每个小区的业务量，得到环境状态变量st+1； iv.根据第t个时隙的业务传输情况，计算第t个时隙的业务吞吐量Tht和小区间时延公平性Ft，然后得到奖励函数rt，表示为如下式(1)所示： rt＝β Tht‑(1‑β )Ft (1)，其中， β 是一个0到1之间的数，用于平衡第t个时隙的业务吞吐量Tht和小区间时延公平性Ft之间的权重； v.每个智能体将第t个时隙的经验存入所对应的经验池； vi.每个智能体从各自所对应的经验池中随机抽取M条经验，计算均方误差损失，并利权　利　要　求　书 1/2 页 2 CN 114189939 A 2用Adam算法进行各自Q网络参数的训练；步骤S23、每经过C次小循环，智能体将各自的Q网络参数复制给目标网络；步骤S24、每经过1次大循环，减小贪婪系数 ε；步骤S25、每经过1次大循环，重新设置每个小区的业务到达率，并初始化环境状态。 5.根据权利要求1所述的动态跳波束与波束带宽分配方法，其特征在于，步骤2中所述的多智能体强化学习仿真系统模型，所采用的强化学习算法包括但不限于DQN算法、 Double DQN算法或A3 C算法。 6.根据权利要求1所述的动态跳波束与波束带宽分配方法，其特征在于，步骤2中所述智能体采用神经网络结构，包括但不限于全连接网络、卷积神经网络以及循环神经网络。权　利　要　求　书 2/2 页 3 CN 114189939 A 3

专利 一种基于多智能体强化学习的动态跳波束与波束带宽分配方法

专利一种基于多智能体强化学习的动态跳波束与波束带宽分配方法