全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211151286.4 (22)申请日 2022.09.21 (71)申请人 沈阳航空航天大 学 地址 110136 辽宁省沈阳市道义经济开发 区道义南大街37号 (72)发明人 王昱 任田君 关智慧  (74)专利代理 机构 沈阳维特专利商标事务所 (普通合伙) 21229 专利代理师 张倩怡 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06F 111/06(2020.01) (54)发明名称 用于多目标决策的分层强化学习框架训练 方法 (57)摘要 本发明提供了一种多目标决策的分层强化 学习框架训练方法, 包括基于所研究的实际问 题, 建立智 能体与环境交互的仿真环境模型; 将 实际问题划分为多个子目标, 通过分配不同的目 标权重建立多个奖励函数模型; 基于奖励函数模 型建立对应的多个DDPG模型; 将各DDPG模型的对 应策略视为离散动作建立对应的DDQN模型; 将 DDPG模型作为底层决策模型, DDQN模型作为选 择 底层决策模 型的顶层决策模型, 构建分层强化学 习框架; 基于分层强化学习框架和仿真环境模型 进行交互并存储 经验; 依照设定的模 型训练频率 训练DDPG模型和DDQN模型, 判断模型是否满足需 求, 若满足需求则退出训练过程, 否则重新存储 经验、 训练模型。 构建能更快接近最终目标的分 布式决策模型, 生成最优连续策略组合。 权利要求书2页 说明书12页 附图10页 CN 115470706 A 2022.12.13 CN 115470706 A 1.一种用于多目标决策的分层强化学习框架训练方法, 其特征在于, 所述分层强化学 习框架训练方法包括如下步骤: 基于所研究的实 际问题, 建立智能体与环境交互的仿真环境模型, 使所述智能体生成 策略后能够将动作在所述仿真环境模型中执 行; 将所述实 际问题划分为多个子目标, 针对多个所述子目标, 通过分配不同的目标权重 建立多个奖励函数模型; 基于多个所述奖励函数模型, 建立对应的多个D DPG模型; 将多个所述D DPG模型的对应策略视为离 散动作, 建立对应的D DQN模型; 将所述DDPG模型作 为底层决策模型, 所述DDQN模型作 为选择所述底层决策模型的顶层 决策模型, 构建基于 两层决策 过程的分层强化学习框架; 基于所述分层强化学习框架和所述仿真环境模型进行交 互并存储经验; 存储所述经验后, 依照设定的模型训练频率训练所述DDPG模型和所述DDQN模型, 判断 训练后的所述DDPG模型和所述DDQN模型是否满足应用需求, 若满足需求则退出训练过程, 否则重新存 储经验和重新训练所述D DPG模型和所述D DQN模型; 在应用阶段, 将所述智能体所处状态输入训练好的所述DDPG模型和所述DDQN模型, 由 所述顶层决策模型输出各底层决策模型被选择后所获得的奖励, 激活最大奖励 对应的所述 底层决策模型, 生成连续机动 动作序列。 2.根据权利要求1所述的用于多目标 决策的分层强化学习框架训练方法, 其特征在于, 所述奖励函数模型作为所述智能体在所述仿真环境模型中执行所述动作at后, 所述仿真环 境模型对所述智能体的反馈rt; 所述DDPG模型的输入为所述智能体当前所处的状态St, 输出为在当前状态下所产生的 动作at; 所述DDQN模型的输入为所述智能体当前所处的状态St, 输出为各所述DDPG模型被选择 的所获得的奖励 pt。 3.根据权利要求2所述的用于多目标 决策的分层强化学习框架训练方法, 其特征在于, 通过分配不同的目标权 重建立多个所述奖励函数模型: 其中, 不同的权重Wi满足: 其中, n为奖励函数模型影响因素的个数; ri为第i 个奖励函数模型对应的奖励。 4.根据权利要求2所述的用于多目标 决策的分层强化学习框架训练方法, 其特征在于, 所述DDPG模型包括A ctor网络θ、 A ctor目标网络θ'、 Critic网络ω和Critic目标网络ω', 所 述Actor网络用于生成策略, 所述Actor目标网络用于指导所述Critic网络的更新, 所述 Critic网络用于评价所述策略, 所述Cr itic目标网络用于计算Q值, 其中, Q值为动作价值函 数, 即在当前状态下 执行该动作对应的奖励值。 5.根据权利要求4所述的用于多目标 决策的分层强化学习框架训练方法, 其特征在于, 所述Actor 网络θ 的目标是输出最优策略使所述Critic网络ω的输出最大, 因此所述Actor 网络θ 的目标输出为:权 利 要 求 书 1/2 页 2 CN 115470706 A 2其中, Δa为动作a的增量, q(St,a,ω)为当前状态下Critic网络的评价; 为 Critic网络对a的偏导, ra为Actor网络的学习率; a为当前状态下 所产生的策略; 所述Critic网络ω的目标是拟合当前状态下执行该策略所带来的累计奖励, 即动作 价 值函数, 所述Critic网络 ω的目标输出为: q(St,at)=rt+γrt+1+γ2rt+2+…=rt+γ(rt+1+γrt+2+…)=rt+γq(St+1,at+1)……(3) 其中, rt为当前状态St执行动作at所获得的奖励; γ表示奖励的衰减因子; q(St+1,at+1) 表示下一状态获得的奖励; 计算所述Actor网络θ 的目标输出和所述Critic网络ω 的目标输后, 使用MSE作为损失 函数分别训练所述Actor网络和所述Critic网络 。 6.根据权利要求5所述的用于多目标 决策的分层强化学习框架训练方法, 其特征在于, 所述Actor目标网络θ'由所述Actor网络θ 软 更新得到: θ'=θ' τ +θ(1 ‑τ )……(4) 所述Critic目标网络 ω'由所述Critic网络 ω软更新得到: ω'=ω' τ +ω(1 ‑τ )……(5) 其中, τ 为软 更新率。 7.根据权利要求5所述的用于多目标 决策的分层强化学习框架训练方法, 其特征在于, 所述DDQN模型包括Q网络η和目标Q网络η', 所述Q网络η拟合选择该所述DDPG模型获得的累 计奖励目标, 所述 Q网络 η计算下一时刻的Q 值, 所述Q网络 η 的目标输出 为: 其中, j=1 …m, m为DDPG模型个数; (St+1)j为选择第j个DDPG模型对应的下一状态; rj为 选择第j个DDPG模型所得到的奖励, maxQ((St+1)j, η')为目标Q网络 η'对状态(St+1)j所对应Q 值中的最大值; 计算出所述Q网络 η 的目标输出后, 使用MSE作为损失函数训练Q网络模型。 8.根据权利要求7所述的用于多目标 决策的分层强化学习框架训练方法, 其特征在于, 所述目标Q网络 η'由所述 Q网络 η软 更新得到: η'= η' τ + η(1 ‑τ )……(7) 其中, τ 为软 更新率。 9.根据权利要求8所述的用于多目标 决策的分层强化学习框架训练方法, 其特征在于, 所述软更新频率低于对应的所述DDPG模 型和所述DDQN模 型的训练频率, 所述分层强化学习 框架的训练过程中, 所述顶层决策模型的训练频率低于所述底层决策模型的训练频率。权 利 要 求 书 2/2 页 3 CN 115470706 A 3

.PDF文档 专利 用于多目标决策的分层强化学习框架训练方法

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于多目标决策的分层强化学习框架训练方法 第 1 页 专利 用于多目标决策的分层强化学习框架训练方法 第 2 页 专利 用于多目标决策的分层强化学习框架训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:13:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。