专利基于强化学习的多弹协同攻击制导律设计方法

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110007293.6 (22)申请日 2021.01.0 5 (65)同一申请的已公布的文献号申请公布号 CN 112799429 A (43)申请公布日 2021.05.14 (73)专利权人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人陈万春　陈中原　岳新成　 (74)专利代理机构北京慧泉知识产权代理有限公司 11232 代理人李娜　王顺荣 (51)Int.Cl. G05D 1/10(2006.01) G06F 30/27(2020.01) (56)对比文件 CN 112033234 A,2020.12.04 CN 109625 333 A,2019.04.16 CN 103884237 A,2014.0 6.25 CN 108168381 A,2018.0 6.15 CN 111667513 A,2020.09.15 CN 103245256 A,2013.08.14CN 112069605 A,2020.12.1 1 US 2013092785 A1,2013.04.18 US 2007288132 A1,20 07.12.13 Zhaowei Yu,et al. .TV Guidance Simulati on Platform Based o n Deep Learning. 《2019 IE EE Internati onal Conference o n Cybemetics and I ntelligent System(CIS) and IE EE Conference o n Robotics,Automati on and Mec hatronics （RAM）》 .2019,第89-94页. 谭浪.强化学习在多智能体对抗中的应用研究. 《中国优秀硕士学位论文全文数据库工程科技II辑》 .2020,(第3期),第C 032-2页. 陈中原等.基于强化学习的多发导弹协同攻击智能制导律. 《兵工学报》 .2021,第42卷(第8 期),第16 38-1647页. (续) 审查员王艳玲 (54)发明名称基于强化学习的多弹协同攻击制导律设计方法 (57)摘要本发明提供了一种基于强化学习的多弹协同攻击制导律设计方法，该方法包括：步骤1，构造状态空间S＝[r1…ri…rnξ1…ξi…ξn]T；步骤2，设计协同制导律并构造动作空间；步骤3，构造奖励函数步骤4，网络初始化；步骤5，对于训练中的每个步长，采用强化学习算法更新Critic网络Q(S,A)、 Actor网络μ(S)、目标Critic网络Q ′(S,A)和目标Actor网络μ(S ′)，直到满足终止条件。应用本发明的技术方案，以解决现有技术中难以对多枚处于不同初始条件的导弹实现对某一目标的同时打击，多弹协同攻击通讯负担较重的问题。 [转续页] 权利要求书3页说明书9页附图3页 CN 112799429 B 2022.03.29 CN 112799429 B (56)对比文件 Zhou J,et al.Dist ributed Guidance Law Design for Co operative Simultaneous Attack with Multiple Mis sles. 《Journal of Guidance Co ntrol & Dynamics》 .2016,第39卷(第10期),第1-9页. 陈升富.导弹攻击时间控制制导律研究. 《中国优秀硕士学位论文全文数据库工程科技 II 辑》 .2020,(第6期),第C 032-177页.2/2 页 2[接上页] CN 112799429 B1.一种基于强化学习的多弹协同攻击制导律设计方法，其特征在于，包括如下步骤：步骤1，构造状态空间S＝[r1…ri…rnξ1…ξi…ξn]T；其中， n为导弹数量， ri为第i枚导弹和目标的相对距离，第i枚导弹估计剩余飞行时间的误差第i枚导弹获取第j枚导弹的信息时aij＝1，第i枚导弹无法获取第j枚导弹的信息时aij＝0，为第i枚导弹的剩余飞行时间，为第j枚导弹的剩余飞行时间，为非线性函数；步骤2，设计协同制导律并构造动作空间；协同制导律结构为其中， aMi为第i枚导弹的加速度，为第i枚导弹的传统的比例导引律，为第i枚导弹的协同控制项；动作空间为制导律中的动作步骤3，构造奖励函数其中， ri(0)为第i枚导弹和目标的初始相对距离， X1取值范围为0.1至0.5， X2取值范围为8至12， X3取值范围为0.8至1.2， X4取值范围为8至12， X5取值范围为8至12， X6取值范围为 0.01至0.03；步骤4，用随机参数θQ初始化Critic网络Q(S,A)，用随机参数θQ′初始化目标Critic网络 Q′(S,A)，用随机参数θμ初始化Actor网络μ(S)，用随机参数θμ′初始化目标Actor网络μ ′ (S′)；本步骤的θQ， θμ， θQ′， θμ′均为随机参数，无具体含义；步骤5，对于训练中的每个步长，采用强化学习算法更新Critic网络Q(S,A)、 Actor网络 μ(S)、目标Critic网络Q ′(S,A)和目标Actor网络 μ ′(S′)，直到满足终止条件。 2.根据权利要求1所述的基于强化学习的多弹协同攻击制导律设计方法，其特征在于：步骤5中具体包括如下步骤：步骤501，根据非线性交战动力学方程更新当前步长下的状态S，对于当前的状态S，选择动作A＝ μ(S)+N，执行动作A，观测所述奖励函数R及执行动作A后的后续状态S ′，在经验池中存储经验(S,A,R,S ′)， N为噪声模型中的随机噪声；步骤502，从经验池中随机取出M个经验(Sk,Ak,Rk,S′k)， k≤M,Sk为第k个经验的观测， Ak 为第k个经验的协同控制项， Rk为第k个经验的奖励函数值， S ′k第k个经验的后续状态；判断 S′k是否是最终状态，如果S ′k是最终状态，则设置值函数目标y＝R,否则值函数目标为奖励函数R和期望的折扣奖励之和，即y＝R+γQ ′(Sk, μ′(Sk|θμ)|θQ′)， μ′(Sk|θμ)为输入为Sk用 θμ 初始化的目标Actor网络， μ ′(Sk|θμ)|θQ′为输入为μ ′(Sk|θμ)用 θQ′初始化的Actor网络， Q ′ (Sk, μ′(Sk| θμ)| θQ′)为输入为Sk和 μ′(Sk| θμ)| θQ′的目标Critic网络， γ为折扣因子；步骤503，通过使经验值损失最小化，更新所述Critic网权　利　要　求　书 1/3 页 2 CN 112799429 B 3

专利 基于强化学习的多弹协同攻击制导律设计方法

专利基于强化学习的多弹协同攻击制导律设计方法