全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111303805.X (22)申请日 2021.11.05 (71)申请人 沈阳飞机设计 研究所扬州协同创新 研究院有限公司 地址 225000 江苏省扬州市广陵新城江苏 信息服务产业基地内28号楼B栋 (72)发明人 郝一行 朴海音 陈永红 陶晓洋 王汉 于津 韩玥 杨晟琦 彭宣淇 孙阳 叶超 樊松源 (74)专利代理 机构 大连理工大 学专利中心 21200 代理人 梅洪玉 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/00(2006.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于强化学习的智能体无效行为切换 抑制方法 (57)摘要 本发明公开一种基于强化学习的智能体无 效行为切换抑制方法, 属于航空工程、 强化学习 领域。 通过智能体与仿真环境交互进行数据采 样, 并基于深度强化学习进行模型训练; 将本算 法加入模型训练过程, 抑制智能体在执行时无效 动作切换的产生, 平滑强化学习智能体的动作执 行机制。 本发 明能够达到较为明显的智能体无效 动作切换抑制效果。 权利要求书2页 说明书4页 附图3页 CN 114021456 A 2022.02.08 CN 114021456 A 1.一种基于强化学习的智能体无效行为切换抑制方法, 其特 征在于, 流 程包括: a)通过智能体与仿真环境交 互并进行在线数据采样; 通过智能体与仿真环境进行交互实现数据采集, 存入记忆库Repl ay Buffer中, 供强化 学习的神经网络训练使用; 所述的仿真环境的可选动作空间集为离散动作空间或者连续动 作空间; b)基于采集到的数据进行神经网络前向传播与反向传播, 对内层模型与外层模型进行 嵌套在线训练, 分别更新内、 外层神经网络的参数, 进而迭代更新智能体策略, 直至模型收 敛, 得到智能体最终策略; 通过强化学习对模型内层与外层进行训练, 分别更新内外层神经网络参数, 内层模型 采用行为者 ‑评论家异策略强化学习算法进行策略迭代与策略评估; 外层模型采用与内层 模型相同或不同的强化学习算法, 对无效动作抑制算子进行迭代更新, 二者以相同更新频 率进行嵌套训练; 以外层模型实时策略作为与环境的交互策略进行采样, 并从记忆库中选 取样本进行神经网络实时训练, 以更新智能体实时策略, 直至模型收敛; c)评估模型性能, 分析智能体执 行时的动作切换率与模型性能; 基于得到的智能体最终策略, 评估智能体最终策略的动作切换率, 动作切换率由以下 公式所得: 式中: R( πout)表示智能体最终策略在一条轨迹中的动作切换率; T表示轨迹长度; sign (at=at‑1)表示相邻两步智能体所采取的动作是否相同, 若相同, 则sign值为1, 若不同则 sign值为0; 与此同时基于模型最终得分, 对比所采用的双层强化学习模型与单层强化学习模型, 评估模型性能是否受到影响。 2.根据权利要求1所述的一种基于强化学习的智能体无效行为切换抑制方法, 其特征 在于, 步骤b)的具体流 程如下: i)初始化记 忆库; ii)从记忆库中随机 选取一个批次数据, 作为本次更新数据; iii)更新内层强化学习模型: 分别更新策略网络与评价网络参数: iv)固定内层网络参数, 更新外层强化学习模型策略网络与评价网络参数, 外层模型与 内层模型的关系如下式: πout(st, at)= ε(st, at‑1, at‑2, ......, at‑k)+[1‑ε(st, at‑1, at‑2, ......, at‑k)]* πin(st, at) 式中: st表示第t步的环境状态; at表示第t步时智能体所采取的动作; πin表示内层 强化 学习的策略模型; πout表示外层强化学习的策略模型; ε表示内外层智能体策略间的权 重; v)以外层强化学习策略作为智能体实时交 互策略并采集数据, 更新记 忆库数据; vi)返回步骤i i), 重复以上步骤, 直至模型收敛; 针对神经网络前向传播和反向传播方法, 将记忆库中数据作为训练集, 训练采用 minibatch法, batch尺寸选为64, 每2次状态转移后 更新一次内外层神经网络参数, 当模型 损失函数降低到预设阈值时, 停止训练, 输出最 终神经网络, 即为即是前向传播过程中的权权 利 要 求 书 1/2 页 2 CN 114021456 A 2重矩阵和偏置项, 作为智能体最终策略。权 利 要 求 书 2/2 页 3 CN 114021456 A 3
专利 一种基于强化学习的智能体无效行为切换抑制方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 18:59:23
上传分享
举报
下载
原文档
(539.1 KB)
分享
友情链接
ISO IEC TS 17021-7 2014 Conformity assessment — Requirements for bodies providin.pdf
ISO 13640 2018 Buildings and civil engineering works Sealants Specifications for test substrates.pdf
ISO 5-4 2009 Photography and graphic technology — Density measurements — Part 4 Geometric conditions for reflection density.pdf
ISO TR 20520 2018 Traditional Chinese medicine — Infection control for acupuncture t.pdf
ISO 6898 1984 Open front mechanical power presses — Capacity ratings and dimensions.pdf
ISO 1839:1980 Tea - Sampling.pdf
ISO IEC 14496-33 2019 Information technology — Coding of audio-visual objects — Part 33 Internet video coding.pdf
ISO 8733 1997 Parallel pins with internal thread of unhardened steel and austenitic stainless steel.pdf
ISO 17266 2018 Cinematography — Multichannel analogue and digital photographic sound and control records on 35 mm motion-picture prints and negatives, and digital sound-control records on.pdf
ISO IEC 7816-8 2021 Identification cards — Integrated circuit cards — Part 8 Commands and mechanisms for security operations.pdf
GB-T 28772-2012 内燃机油分类.pdf
GB-T 17626.1-2006 电磁兼容 试验和测量技术 抗扰度试验总论.pdf
GB-T 20703-2006 船舶电气装置 取暖和烹调电器.pdf
GB-T 39352-2020 空间数据与信息传输系统 邻近空间链路协议 数据链路层.pdf
GB-T 27025-2019 检测和校准实验室能力的通用要求.pdf
GB 11555-2009 汽车风窗玻璃除霜和除雾系统的性能和试验方法.pdf
GB-T 32424-2015 系统与软件工程 用户文档的设计者和开发者要求.pdf
GB-T 23602-2009 钛及钛合金表面除鳞和清洁方法.pdf
GB-T 2793-1995 胶粘剂不挥发物含量的测定.pdf
GB-T 40374-2021 硬质合金化学分析方法 铅量和镉量的测定 火焰原子吸收光谱法和电感耦合等离子体原子发射光谱法.pdf
1
/
3
10
评价文档
赞助2元 点击下载(539.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。