(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110007293.6
(22)申请日 2021.01.0 5
(65)同一申请的已公布的文献号
申请公布号 CN 112799429 A
(43)申请公布日 2021.05.14
(73)专利权人 北京航空航天大 学
地址 100191 北京市海淀区学院路37号
(72)发明人 陈万春 陈中原 岳新成
(74)专利代理 机构 北京慧泉知识产权代理有限
公司 11232
代理人 李娜 王顺荣
(51)Int.Cl.
G05D 1/10(2006.01)
G06F 30/27(2020.01)
(56)对比文件
CN 112033234 A,2020.12.04
CN 109625 333 A,2019.04.16
CN 103884237 A,2014.0 6.25
CN 108168381 A,2018.0 6.15
CN 111667513 A,2020.09.15
CN 103245256 A,2013.08.14CN 112069605 A,2020.12.1 1
US 2013092785 A1,2013.04.18
US 2007288132 A1,20 07.12.13
Zhaowei Yu,et al. .TV Guidance
Simulati on Platform Based o n Deep
Learning. 《2019 IE EE Internati onal
Conference o n Cybemetics and I ntelligent
System(CIS) and IE EE Conference o n
Robotics,Automati on and Mec hatronics
(RAM) 》 .2019,第89-94页.
谭浪.强化学习在多智能体对抗中的应用研
究. 《中国优秀硕士学位 论文全文数据库 工程科
技II辑》 .2020,(第3期),第C 032-2页.
陈中原 等.基 于强化学习的多发导弹协同
攻击智能制导 律. 《兵工学报》 .2021,第42卷(第8
期),第16 38-1647页. (续)
审查员 王艳玲
(54)发明名称
基于强化学习的多弹协同攻击制导律设计
方法
(57)摘要
本发明提供了一种基于强化学习的多弹协
同攻击制导律设计方法, 该方法包括: 步骤1, 构
造状态空间S=[r1…ri…rnξ1…ξi…ξn]T; 步
骤2, 设计协同制导律并构造动作空间; 步骤3, 构
造奖励函数
步骤4, 网络初始化; 步骤5, 对于训练中的每个步
长, 采用强化学习算法更新Critic网络Q(S,A)、
Actor网络μ(S)、 目标Critic网络Q ′(S,A)和目
标Actor网络μ(S ′), 直到满足终止 条件。 应用本发明的技术方案, 以解决现有技术中难以对多枚
处于不同初始条件的导弹实现对某一目标的同
时打击, 多弹协同攻击通讯负担 较重的问题。
[转续页]
权利要求书3页 说明书9页 附图3页
CN 112799429 B
2022.03.29
CN 112799429 B
(56)对比文件
Zhou J,et al.Dist ributed Guidance Law
Design for Co operative Simultaneous
Attack with Multiple Mis sles. 《Journal of
Guidance Co ntrol & Dynamics》 .2016,第39卷(第10期),第1-9页.
陈升富.导弹攻击时间控制 制导律研究. 《中
国优秀硕士学位 论文全文数据库 工程科技 II
辑》 .2020,(第6期),第C 032-177页.2/2 页
2[接上页]
CN 112799429 B1.一种基于强化学习的多弹协同攻击制导 律设计方法, 其特 征在于, 包括如下步骤:
步骤1, 构造状态空间S=[r1…ri…rnξ1…ξi…ξn]T;
其中, n为导弹数量, ri为第i枚导弹和目标的相对距 离, 第i枚导弹估计剩余飞行时间的
误差
第i枚导弹获取第j枚导弹的信息时aij=1, 第i枚导弹无法获
取第j枚导弹的信息时aij=0,
为第i枚导弹的剩余飞行时间,
为第j枚导弹的剩余飞行
时间,
为非线性 函数;
步骤2, 设计协同制导 律并构造动作空间;
协同制导律结构为
其中, aMi为第i枚导弹的加速度,
为第i枚导弹的传
统的比例导引律,
为第i枚导弹的协同控制项; 动作空间为制导律中的动作
步骤3, 构造奖励函数
其中, ri(0)为第i枚导弹和目标的初始相对距离, X1取值范围为0.1至0.5, X2取值范围
为8至12, X3取值范围为0.8至1.2, X4取值范围为8至12, X5取值范围为8至12, X6取值范围为
0.01至0.03;
步骤4, 用随机参数θQ初始化Critic网络Q(S,A), 用随机参数θQ′初始化目标Critic网络
Q′(S,A), 用随机参数θμ初始化Actor网络μ(S), 用随机参数θμ′初始化目标Actor网络μ ′
(S′); 本步骤的θQ, θμ, θQ′, θμ′均为随机参数, 无 具体含义;
步骤5, 对于训练中的每个步长, 采用强化学习算法更新Critic网络Q(S,A)、 Actor网络
μ(S)、 目标Critic网络Q ′(S,A)和目标Actor网络 μ ′(S′), 直到满足 终止条件。
2.根据权利要求1所述的基于强化学习的多弹协同攻击制导律设计方法, 其特征在于:
步骤5中具体包括如下步骤:
步骤501, 根据非线性交战动力学方程更新当前步长下的状态S, 对于当前的状态S, 选
择动作A= μ(S)+N, 执行动作A, 观测所述奖励函数R及执行动作A后的后续状态S ′, 在经验池
中存储经验(S,A,R,S ′), N为噪声模型中的随机噪声;
步骤502, 从经验池中随机取出M个经验(Sk,Ak,Rk,S′k), k≤M,Sk为第k个经验的观测, Ak
为第k个经验的协同控制项, Rk为第k个经验的奖励函数值, S ′k第k个经验的后续状态; 判断
S′k是否是最终状态, 如果S ′k是最终状态, 则设置值函数目标y=R,否则值函数目标为奖励
函数R和期望的折扣奖励之和, 即y=R+γQ ′(Sk, μ′(Sk|θμ)|θQ′), μ′(Sk|θμ)为输入为Sk用 θμ
初始化的目标Actor网络, μ ′(Sk|θμ)|θQ′为输入为μ ′(Sk|θμ)用 θQ′初始化的Actor网络, Q ′
(Sk, μ′(Sk| θμ)| θQ′)为输入为Sk和 μ′(Sk| θμ)| θQ′的目标Critic网络, γ为 折扣因子;
步骤503, 通过使经验值损失
最小化, 更新所述Critic网权 利 要 求 书 1/3 页
2
CN 112799429 B
3
专利 基于强化学习的多弹协同攻击制导律设计方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:05:25上传分享