全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110007293.6 (22)申请日 2021.01.0 5 (65)同一申请的已公布的文献号 申请公布号 CN 112799429 A (43)申请公布日 2021.05.14 (73)专利权人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 陈万春 陈中原 岳新成  (74)专利代理 机构 北京慧泉知识产权代理有限 公司 11232 代理人 李娜 王顺荣 (51)Int.Cl. G05D 1/10(2006.01) G06F 30/27(2020.01) (56)对比文件 CN 112033234 A,2020.12.04 CN 109625 333 A,2019.04.16 CN 103884237 A,2014.0 6.25 CN 108168381 A,2018.0 6.15 CN 111667513 A,2020.09.15 CN 103245256 A,2013.08.14CN 112069605 A,2020.12.1 1 US 2013092785 A1,2013.04.18 US 2007288132 A1,20 07.12.13 Zhaowei Yu,et al. .TV Guidance Simulati on Platform Based o n Deep Learning. 《2019 IE EE Internati onal Conference o n Cybemetics and I ntelligent System(CIS) and IE EE Conference o n Robotics,Automati on and Mec hatronics (RAM) 》 .2019,第89-94页. 谭浪.强化学习在多智能体对抗中的应用研 究. 《中国优秀硕士学位 论文全文数据库 工程科 技II辑》 .2020,(第3期),第C 032-2页. 陈中原 等.基 于强化学习的多发导弹协同 攻击智能制导 律. 《兵工学报》 .2021,第42卷(第8 期),第16 38-1647页. (续) 审查员 王艳玲 (54)发明名称 基于强化学习的多弹协同攻击制导律设计 方法 (57)摘要 本发明提供了一种基于强化学习的多弹协 同攻击制导律设计方法, 该方法包括: 步骤1, 构 造状态空间S=[r1…ri…rnξ1…ξi…ξn]T; 步 骤2, 设计协同制导律并构造动作空间; 步骤3, 构 造奖励函数 步骤4, 网络初始化; 步骤5, 对于训练中的每个步 长, 采用强化学习算法更新Critic网络Q(S,A)、 Actor网络μ(S)、 目标Critic网络Q ′(S,A)和目 标Actor网络μ(S ′), 直到满足终止 条件。 应用本发明的技术方案, 以解决现有技术中难以对多枚 处于不同初始条件的导弹实现对某一目标的同 时打击, 多弹协同攻击通讯负担 较重的问题。 [转续页] 权利要求书3页 说明书9页 附图3页 CN 112799429 B 2022.03.29 CN 112799429 B (56)对比文件 Zhou J,et al.Dist ributed Guidance Law Design for Co operative Simultaneous Attack with Multiple Mis sles. 《Journal of Guidance Co ntrol & Dynamics》 .2016,第39卷(第10期),第1-9页. 陈升富.导弹攻击时间控制 制导律研究. 《中 国优秀硕士学位 论文全文数据库 工程科技 II 辑》 .2020,(第6期),第C 032-177页.2/2 页 2[接上页] CN 112799429 B1.一种基于强化学习的多弹协同攻击制导 律设计方法, 其特 征在于, 包括如下步骤: 步骤1, 构造状态空间S=[r1…ri…rnξ1…ξi…ξn]T; 其中, n为导弹数量, ri为第i枚导弹和目标的相对距 离, 第i枚导弹估计剩余飞行时间的 误差 第i枚导弹获取第j枚导弹的信息时aij=1, 第i枚导弹无法获 取第j枚导弹的信息时aij=0, 为第i枚导弹的剩余飞行时间, 为第j枚导弹的剩余飞行 时间, 为非线性 函数; 步骤2, 设计协同制导 律并构造动作空间; 协同制导律结构为 其中, aMi为第i枚导弹的加速度, 为第i枚导弹的传 统的比例导引律, 为第i枚导弹的协同控制项; 动作空间为制导律中的动作 步骤3, 构造奖励函数 其中, ri(0)为第i枚导弹和目标的初始相对距离, X1取值范围为0.1至0.5, X2取值范围 为8至12, X3取值范围为0.8至1.2, X4取值范围为8至12, X5取值范围为8至12, X6取值范围为 0.01至0.03; 步骤4, 用随机参数θQ初始化Critic网络Q(S,A), 用随机参数θQ′初始化目标Critic网络 Q′(S,A), 用随机参数θμ初始化Actor网络μ(S), 用随机参数θμ′初始化目标Actor网络μ ′ (S′); 本步骤的θQ, θμ, θQ′, θμ′均为随机参数, 无 具体含义; 步骤5, 对于训练中的每个步长, 采用强化学习算法更新Critic网络Q(S,A)、 Actor网络 μ(S)、 目标Critic网络Q ′(S,A)和目标Actor网络 μ ′(S′), 直到满足 终止条件。 2.根据权利要求1所述的基于强化学习的多弹协同攻击制导律设计方法, 其特征在于: 步骤5中具体包括如下步骤: 步骤501, 根据非线性交战动力学方程更新当前步长下的状态S, 对于当前的状态S, 选 择动作A= μ(S)+N, 执行动作A, 观测所述奖励函数R及执行动作A后的后续状态S ′, 在经验池 中存储经验(S,A,R,S ′), N为噪声模型中的随机噪声; 步骤502, 从经验池中随机取出M个经验(Sk,Ak,Rk,S′k), k≤M,Sk为第k个经验的观测, Ak 为第k个经验的协同控制项, Rk为第k个经验的奖励函数值, S ′k第k个经验的后续状态; 判断 S′k是否是最终状态, 如果S ′k是最终状态, 则设置值函数目标y=R,否则值函数目标为奖励 函数R和期望的折扣奖励之和, 即y=R+γQ ′(Sk, μ′(Sk|θμ)|θQ′), μ′(Sk|θμ)为输入为Sk用 θμ 初始化的目标Actor网络, μ ′(Sk|θμ)|θQ′为输入为μ ′(Sk|θμ)用 θQ′初始化的Actor网络, Q ′ (Sk, μ′(Sk| θμ)| θQ′)为输入为Sk和 μ′(Sk| θμ)| θQ′的目标Critic网络, γ为 折扣因子; 步骤503, 通过使经验值损失 最小化, 更新所述Critic网权 利 要 求 书 1/3 页 2 CN 112799429 B 3

.PDF文档 专利 基于强化学习的多弹协同攻击制导律设计方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的多弹协同攻击制导律设计方法 第 1 页 专利 基于强化学习的多弹协同攻击制导律设计方法 第 2 页 专利 基于强化学习的多弹协同攻击制导律设计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:05:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。