全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111303805.X (22)申请日 2021.11.05 (71)申请人 沈阳飞机设计 研究所扬州协同创新 研究院有限公司 地址 225000 江苏省扬州市广陵新城江苏 信息服务产业基地内28号楼B栋 (72)发明人 郝一行 朴海音 陈永红 陶晓洋  王汉 于津 韩玥 杨晟琦  彭宣淇 孙阳 叶超 樊松源  (74)专利代理 机构 大连理工大 学专利中心 21200 代理人 梅洪玉 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/00(2006.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于强化学习的智能体无效行为切换 抑制方法 (57)摘要 本发明公开一种基于强化学习的智能体无 效行为切换抑制方法, 属于航空工程、 强化学习 领域。 通过智能体与仿真环境交互进行数据采 样, 并基于深度强化学习进行模型训练; 将本算 法加入模型训练过程, 抑制智能体在执行时无效 动作切换的产生, 平滑强化学习智能体的动作执 行机制。 本发 明能够达到较为明显的智能体无效 动作切换抑制效果。 权利要求书2页 说明书4页 附图3页 CN 114021456 A 2022.02.08 CN 114021456 A 1.一种基于强化学习的智能体无效行为切换抑制方法, 其特 征在于, 流 程包括: a)通过智能体与仿真环境交 互并进行在线数据采样; 通过智能体与仿真环境进行交互实现数据采集, 存入记忆库Repl ay Buffer中, 供强化 学习的神经网络训练使用; 所述的仿真环境的可选动作空间集为离散动作空间或者连续动 作空间; b)基于采集到的数据进行神经网络前向传播与反向传播, 对内层模型与外层模型进行 嵌套在线训练, 分别更新内、 外层神经网络的参数, 进而迭代更新智能体策略, 直至模型收 敛, 得到智能体最终策略; 通过强化学习对模型内层与外层进行训练, 分别更新内外层神经网络参数, 内层模型 采用行为者 ‑评论家异策略强化学习算法进行策略迭代与策略评估; 外层模型采用与内层 模型相同或不同的强化学习算法, 对无效动作抑制算子进行迭代更新, 二者以相同更新频 率进行嵌套训练; 以外层模型实时策略作为与环境的交互策略进行采样, 并从记忆库中选 取样本进行神经网络实时训练, 以更新智能体实时策略, 直至模型收敛; c)评估模型性能, 分析智能体执 行时的动作切换率与模型性能; 基于得到的智能体最终策略, 评估智能体最终策略的动作切换率, 动作切换率由以下 公式所得: 式中: R( πout)表示智能体最终策略在一条轨迹中的动作切换率; T表示轨迹长度; sign (at=at‑1)表示相邻两步智能体所采取的动作是否相同, 若相同, 则sign值为1, 若不同则 sign值为0; 与此同时基于模型最终得分, 对比所采用的双层强化学习模型与单层强化学习模型, 评估模型性能是否受到影响。 2.根据权利要求1所述的一种基于强化学习的智能体无效行为切换抑制方法, 其特征 在于, 步骤b)的具体流 程如下: i)初始化记 忆库; ii)从记忆库中随机 选取一个批次数据, 作为本次更新数据; iii)更新内层强化学习模型: 分别更新策略网络与评价网络参数: iv)固定内层网络参数, 更新外层强化学习模型策略网络与评价网络参数, 外层模型与 内层模型的关系如下式: πout(st, at)= ε(st, at‑1, at‑2, ......, at‑k)+[1‑ε(st, at‑1, at‑2, ......, at‑k)]* πin(st, at) 式中: st表示第t步的环境状态; at表示第t步时智能体所采取的动作; πin表示内层 强化 学习的策略模型; πout表示外层强化学习的策略模型; ε表示内外层智能体策略间的权 重; v)以外层强化学习策略作为智能体实时交 互策略并采集数据, 更新记 忆库数据; vi)返回步骤i i), 重复以上步骤, 直至模型收敛; 针对神经网络前向传播和反向传播方法, 将记忆库中数据作为训练集, 训练采用 minibatch法, batch尺寸选为64, 每2次状态转移后 更新一次内外层神经网络参数, 当模型 损失函数降低到预设阈值时, 停止训练, 输出最 终神经网络, 即为即是前向传播过程中的权权 利 要 求 书 1/2 页 2 CN 114021456 A 2重矩阵和偏置项, 作为智能体最终策略。权 利 要 求 书 2/2 页 3 CN 114021456 A 3

.PDF文档 专利 一种基于强化学习的智能体无效行为切换抑制方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的智能体无效行为切换抑制方法 第 1 页 专利 一种基于强化学习的智能体无效行为切换抑制方法 第 2 页 专利 一种基于强化学习的智能体无效行为切换抑制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:59:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。