专利一种基于强化学习的智能体无效行为切换抑制方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111303805.X (22)申请日 2021.11.05 (71)申请人沈阳飞机设计研究所扬州协同创新研究院有限公司地址 225000 江苏省扬州市广陵新城江苏信息服务产业基地内28号楼B栋 (72)发明人郝一行　朴海音　陈永红　陶晓洋　王汉　于津　韩玥　杨晟琦　彭宣淇　孙阳　叶超　樊松源　 (74)专利代理机构大连理工大学专利中心 21200 代理人梅洪玉 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/00(2006.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于强化学习的智能体无效行为切换抑制方法 (57)摘要本发明公开一种基于强化学习的智能体无效行为切换抑制方法，属于航空工程、强化学习领域。通过智能体与仿真环境交互进行数据采样，并基于深度强化学习进行模型训练；将本算法加入模型训练过程，抑制智能体在执行时无效动作切换的产生，平滑强化学习智能体的动作执行机制。本发明能够达到较为明显的智能体无效动作切换抑制效果。权利要求书2页说明书4页附图3页 CN 114021456 A 2022.02.08 CN 114021456 A 1.一种基于强化学习的智能体无效行为切换抑制方法，其特征在于，流程包括： a)通过智能体与仿真环境交互并进行在线数据采样；通过智能体与仿真环境进行交互实现数据采集，存入记忆库Repl ay Buffer中，供强化学习的神经网络训练使用；所述的仿真环境的可选动作空间集为离散动作空间或者连续动作空间； b)基于采集到的数据进行神经网络前向传播与反向传播，对内层模型与外层模型进行嵌套在线训练，分别更新内、外层神经网络的参数，进而迭代更新智能体策略，直至模型收敛，得到智能体最终策略；通过强化学习对模型内层与外层进行训练，分别更新内外层神经网络参数，内层模型采用行为者 ‑评论家异策略强化学习算法进行策略迭代与策略评估；外层模型采用与内层模型相同或不同的强化学习算法，对无效动作抑制算子进行迭代更新，二者以相同更新频率进行嵌套训练；以外层模型实时策略作为与环境的交互策略进行采样，并从记忆库中选取样本进行神经网络实时训练，以更新智能体实时策略，直至模型收敛； c)评估模型性能，分析智能体执行时的动作切换率与模型性能；基于得到的智能体最终策略，评估智能体最终策略的动作切换率，动作切换率由以下公式所得：式中： R( πout)表示智能体最终策略在一条轨迹中的动作切换率； T表示轨迹长度； sign (at＝at‑1)表示相邻两步智能体所采取的动作是否相同，若相同，则sign值为1，若不同则 sign值为0；与此同时基于模型最终得分，对比所采用的双层强化学习模型与单层强化学习模型，评估模型性能是否受到影响。 2.根据权利要求1所述的一种基于强化学习的智能体无效行为切换抑制方法，其特征在于，步骤b)的具体流程如下： i)初始化记忆库； ii)从记忆库中随机选取一个批次数据，作为本次更新数据； iii)更新内层强化学习模型：分别更新策略网络与评价网络参数： iv)固定内层网络参数，更新外层强化学习模型策略网络与评价网络参数，外层模型与内层模型的关系如下式： πout(st， at)＝ ε(st， at‑1， at‑2， ......， at‑k)+[1‑ε(st， at‑1， at‑2， ......， at‑k)]* πin(st， at) 式中： st表示第t步的环境状态； at表示第t步时智能体所采取的动作； πin表示内层强化学习的策略模型； πout表示外层强化学习的策略模型； ε表示内外层智能体策略间的权重； v)以外层强化学习策略作为智能体实时交互策略并采集数据，更新记忆库数据； vi)返回步骤i i)，重复以上步骤，直至模型收敛；针对神经网络前向传播和反向传播方法，将记忆库中数据作为训练集，训练采用 minibatch法， batch尺寸选为64，每2次状态转移后更新一次内外层神经网络参数，当模型损失函数降低到预设阈值时，停止训练，输出最终神经网络，即为即是前向传播过程中的权权　利　要　求　书 1/2 页 2 CN 114021456 A 2重矩阵和偏置项，作为智能体最终策略。权　利　要　求　书 2/2 页 3 CN 114021456 A 3

专利 一种基于强化学习的智能体无效行为切换抑制方法

专利一种基于强化学习的智能体无效行为切换抑制方法