全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111527204.7 (22)申请日 2021.12.14 (71)申请人 清华大学 地址 100084 北京市海淀区清华园 (72)发明人 倪祖耀 林志远 张树英 匡麟玲  (74)专利代理 机构 北京众合诚成知识产权代理 有限公司 1 1246 代理人 陈波 (51)Int.Cl. H04W 72/04(2009.01) H04W 84/06(2009.01) G06F 30/27(2020.01) G06N 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多智能体强化学习的动态跳波束 与波束带宽分配方法 (57)摘要 本发明公开了一种基于多智能体强化学习 的动态跳波束与带宽分配方法, 通过每个智能体 负责一个卫星波束的照射方向或者波束的带宽 大小, 各智能体 之间协作完成动态跳波束与带宽 分配任务。 该方法既有效利用了波束资源的时、 空、 频三个自由度, 又相较于单智能体强化学习 降低了决策空间的复杂 度, 在吞吐率以及时延公 平性方面 性能优异, 且具有一定的鲁棒 性。 权利要求书2页 说明书6页 附图5页 CN 114189939 A 2022.03.15 CN 114189939 A 1.一种基于多智能体强化学习的动态跳波束与波束带宽分配方法, 用于卫星波束在时 间、 空间和频率 三个维度上的资源分配, 其特 征在于, 该 方法包括以下步骤: 步骤1、 获取卫星通信系 统参数, 包括波束数量K、 地面小区数量N、 卫星总发射功率、 卫 星高度、 卫星带宽资源块数以及每 个卫星宽带资源块的带宽; 步骤2、 构建多智能体强化学习仿真系统模型, 并对构建的仿真系统模型进行离线训 练; 步骤3、 将步骤2中训练好的仿真系统模型部署到运控中心或者星上 载荷; 步骤4、 所述运控中心或者星上载荷将每个时隙下每个小区的实时业务队列大小输入 被部署到其上的所述训练好的仿真系统模型, 从而得到该时隙每个波束的照射位置以及所 分配的带宽大小。 2.根据权利要求1所述的动态跳波束与波束带宽分配方法, 其特征在于, 步骤2中所述 多智能体强化学习仿真系统模型, 包括多个强化学习智能体、 多个经验池以及卫星跳波束 仿真环境。 3.根据权利要求1或2所述的动态跳波束与波束带宽分配方法, 其特征在于, 步骤2中所 述多智能体强化学习仿真系统模型中, 一个卫星波束对应两个智能体, 分别负责该卫星波 束的照射方向和带宽分配, 所述两个智能体中的每个智能体分别包含两个神经网络和一个 经验池, 其中所述两个神经网络是目标网络和Q网络 。 4.根据权利要求1所述的动态跳波束与波束带宽分配方法, 其特征在于, 步骤2中所述 多智能体强化学习仿真系统模型, 其工作流 程包括以下子步骤: 步骤S21、 初始化2K个神经网络参数以及2K个经验池; 初始化每个小区的业务到达率; 将环境初始状态设置为第一个时隙每 个地面小区的业 务大小; 将贪婪系数 ε设置为1; 步骤S22、 开始执行循环过程, 该循环过程包括M次大循环, 每次大循环包含T次小循环; 其中, 第t次小循环过程包括以下子进程: i.用每个智能体观测全局状态st, 定义为 其中, 表示第n个小 区在第t个时隙的总业 务大小; ii.将全局状态st输入到所述每个智能体的Q网络, 第k个智能体根据 ε ‑贪婪算法做出决 策 该决策 是指波束的照射 位置或者带宽资源块个数; iii.根据每个智能体的决策以及链路预算, 计算每个卫星波束的传输容量, 然后对第t 个时隙所照射小区的业务进 行传输, 并更新第t+1个时隙的每个小区的业务量, 得到环 境状 态变量st+1; iv.根据第t个时隙的业务传输情况, 计算第t个时隙的业务吞吐量Tht和小区间时延公 平性Ft, 然后得到奖励函数rt, 表示为如下式(1)所示: rt=β Tht‑(1‑β )Ft  (1), 其中, β 是一个0到1之间的数, 用于平衡第t个时隙的业务吞吐量Tht和小区间时延公平 性Ft之间的权 重; v.每个智能体将第t个时隙的经验 存入所对应的经验 池; vi.每个智能体从各自所对应的经验池中随机抽取M条经验, 计算均方误差损失, 并利权 利 要 求 书 1/2 页 2 CN 114189939 A 2用Adam算法进行 各自Q网络参数的训练; 步骤S23、 每经 过C次小循环, 智能体将各自的Q网络参数复制给目标网络; 步骤S24、 每经 过1次大循环, 减小贪婪系数 ε; 步骤S25、 每经 过1次大循环, 重新设置每 个小区的业 务到达率, 并初始化环境状态。 5.根据权利要求1所述的动态跳波束与波束带宽分配方法, 其特征在于, 步骤2中所述 的多智能体强化学习仿真系统模 型, 所采用的强化学习算法包括但 不限于DQN算法、 Double   DQN算法或A3 C算法。 6.根据权利要求1所述的动态跳波束与波束带宽分配方法, 其特征在于, 步骤2中所述 智能体采用神经网络结构, 包括但不限于全连接网络、 卷积神经网络以及循环神经网络 。权 利 要 求 书 2/2 页 3 CN 114189939 A 3

.PDF文档 专利 一种基于多智能体强化学习的动态跳波束与波束带宽分配方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多智能体强化学习的动态跳波束与波束带宽分配方法 第 1 页 专利 一种基于多智能体强化学习的动态跳波束与波束带宽分配方法 第 2 页 专利 一种基于多智能体强化学习的动态跳波束与波束带宽分配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:25:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。