专利用于多目标决策的分层强化学习框架训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211151286.4 (22)申请日 2022.09.21 (71)申请人沈阳航空航天大学地址 110136 辽宁省沈阳市道义经济开发区道义南大街37号 (72)发明人王昱　任田君　关智慧　 (74)专利代理机构沈阳维特专利商标事务所 (普通合伙) 21229 专利代理师张倩怡 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06F 111/06(2020.01) (54)发明名称用于多目标决策的分层强化学习框架训练方法 (57)摘要本发明提供了一种多目标决策的分层强化学习框架训练方法，包括基于所研究的实际问题，建立智能体与环境交互的仿真环境模型；将实际问题划分为多个子目标，通过分配不同的目标权重建立多个奖励函数模型；基于奖励函数模型建立对应的多个DDPG模型；将各DDPG模型的对应策略视为离散动作建立对应的DDQN模型；将 DDPG模型作为底层决策模型， DDQN模型作为选择底层决策模型的顶层决策模型，构建分层强化学习框架；基于分层强化学习框架和仿真环境模型进行交互并存储经验；依照设定的模型训练频率训练DDPG模型和DDQN模型，判断模型是否满足需求，若满足需求则退出训练过程，否则重新存储经验、训练模型。构建能更快接近最终目标的分布式决策模型，生成最优连续策略组合。权利要求书2页说明书12页附图10页 CN 115470706 A 2022.12.13 CN 115470706 A 1.一种用于多目标决策的分层强化学习框架训练方法，其特征在于，所述分层强化学习框架训练方法包括如下步骤：基于所研究的实际问题，建立智能体与环境交互的仿真环境模型，使所述智能体生成策略后能够将动作在所述仿真环境模型中执行；将所述实际问题划分为多个子目标，针对多个所述子目标，通过分配不同的目标权重建立多个奖励函数模型；基于多个所述奖励函数模型，建立对应的多个D DPG模型；将多个所述D DPG模型的对应策略视为离散动作，建立对应的D DQN模型；将所述DDPG模型作为底层决策模型，所述DDQN模型作为选择所述底层决策模型的顶层决策模型，构建基于两层决策过程的分层强化学习框架；基于所述分层强化学习框架和所述仿真环境模型进行交互并存储经验；存储所述经验后，依照设定的模型训练频率训练所述DDPG模型和所述DDQN模型，判断训练后的所述DDPG模型和所述DDQN模型是否满足应用需求，若满足需求则退出训练过程，否则重新存储经验和重新训练所述D DPG模型和所述D DQN模型；在应用阶段，将所述智能体所处状态输入训练好的所述DDPG模型和所述DDQN模型，由所述顶层决策模型输出各底层决策模型被选择后所获得的奖励，激活最大奖励对应的所述底层决策模型，生成连续机动动作序列。 2.根据权利要求1所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述奖励函数模型作为所述智能体在所述仿真环境模型中执行所述动作at后，所述仿真环境模型对所述智能体的反馈rt；所述DDPG模型的输入为所述智能体当前所处的状态St，输出为在当前状态下所产生的动作at；所述DDQN模型的输入为所述智能体当前所处的状态St，输出为各所述DDPG模型被选择的所获得的奖励 pt。 3.根据权利要求2所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，通过分配不同的目标权重建立多个所述奖励函数模型：其中，不同的权重Wi满足：其中， n为奖励函数模型影响因素的个数； ri为第i 个奖励函数模型对应的奖励。 4.根据权利要求2所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述DDPG模型包括A ctor网络θ、 A ctor目标网络θ'、 Critic网络ω和Critic目标网络ω'，所述Actor网络用于生成策略，所述Actor目标网络用于指导所述Critic网络的更新，所述 Critic网络用于评价所述策略，所述Cr itic目标网络用于计算Q值，其中， Q值为动作价值函数，即在当前状态下执行该动作对应的奖励值。 5.根据权利要求4所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述Actor 网络θ 的目标是输出最优策略使所述Critic网络ω的输出最大，因此所述Actor 网络θ 的目标输出为：权　利　要　求　书 1/2 页 2 CN 115470706 A 2其中， Δa为动作a的增量， q(St,a,ω)为当前状态下Critic网络的评价；为 Critic网络对a的偏导， ra为Actor网络的学习率； a为当前状态下所产生的策略；所述Critic网络ω的目标是拟合当前状态下执行该策略所带来的累计奖励，即动作价值函数，所述Critic网络 ω的目标输出为： q(St,at)＝rt+γrt+1+γ2rt+2+…＝rt+γ(rt+1+γrt+2+…)＝rt+γq(St+1,at+1)……(3) 其中， rt为当前状态St执行动作at所获得的奖励； γ表示奖励的衰减因子； q(St+1,at+1) 表示下一状态获得的奖励；计算所述Actor网络θ 的目标输出和所述Critic网络ω 的目标输后，使用MSE作为损失函数分别训练所述Actor网络和所述Critic网络。 6.根据权利要求5所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述Actor目标网络θ'由所述Actor网络θ 软更新得到： θ'＝θ' τ +θ(1 ‑τ )……(4) 所述Critic目标网络 ω'由所述Critic网络 ω软更新得到： ω'＝ω' τ +ω(1 ‑τ )……(5) 其中， τ 为软更新率。 7.根据权利要求5所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述DDQN模型包括Q网络η和目标Q网络η'，所述Q网络η拟合选择该所述DDPG模型获得的累计奖励目标，所述 Q网络 η计算下一时刻的Q 值，所述Q网络 η 的目标输出为：其中， j＝1 …m， m为DDPG模型个数； (St+1)j为选择第j个DDPG模型对应的下一状态； rj为选择第j个DDPG模型所得到的奖励， maxQ((St+1)j, η')为目标Q网络 η'对状态(St+1)j所对应Q 值中的最大值；计算出所述Q网络 η 的目标输出后，使用MSE作为损失函数训练Q网络模型。 8.根据权利要求7所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述目标Q网络 η'由所述 Q网络 η软更新得到： η'＝ η' τ + η(1 ‑τ )……(7) 其中， τ 为软更新率。 9.根据权利要求8所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述软更新频率低于对应的所述DDPG模型和所述DDQN模型的训练频率，所述分层强化学习框架的训练过程中，所述顶层决策模型的训练频率低于所述底层决策模型的训练频率。权　利　要　求　书 2/2 页 3 CN 115470706 A 3

专利 用于多目标决策的分层强化学习框架训练方法

专利用于多目标决策的分层强化学习框架训练方法