专利一种基于迁移强化学习的航天起爆器生产调度方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221089795 6.0 (22)申请日 2022.07.28 (71)申请人重庆大学地址 400044 重庆市沙坪坝区沙坪坝正街 174号 (72)发明人魏善碧　余笑　钟豪　戚俊　朱思宁　陈行　 (74)专利代理机构济南鼎信专利商标代理事务所(普通合伙) 37245 专利代理师贾国浩 (51)Int.Cl. G06Q 10/06(2012.01) G06F 30/20(2020.01) G06F 9/448(2018.01) G06N 20/00(2019.01)G06Q 50/04(2012.01) (54)发明名称一种基于迁移强化学习的航天起爆器生产调度方法 (57)摘要本发明公开了一种基于迁移强化学习的航天起爆器生产调度方法，主要涉及机器学习与智能制造领域；包括步骤： S1、对起爆器制造执行过程柔性生产线建模； S2、获取起爆器生产车间生产加工的实时信息； S3、根据起爆器生产车间收集的实时信息，确定起爆器柔性生产车间调度问题描述和相关假设； S4、确定起爆器生产车间调度的约束条件和目标函数； S5、进行迁移强化学习的训练； S6、根据训练得到的策略选取最优的动作进行实时调度；本发明能够解决当新品种起爆器生产工艺参数稍有变动时出现的收敛速度变缓、效果变差、不能得到最优的调度解的问题。权利要求书3页说明书9页附图4页 CN 115239158 A 2022.10.25 CN 115239158 A 1.一种基于迁移强化学习的航天起爆器生产调度方法，其特征在于，包括步骤： S1、对起爆器制造执行过程柔性生产线建模； S2、获取起爆器生产车间生产加工的实时信息； S3、根据起爆器生产车间收集的实时信息，确定起爆器柔性生产车间调度问题描述和相关假设； S4、确定起爆器生产车间调度的约束条件和目标函数； S5、进行迁移强化学习的训练； S6、根据训练得到的策略选取最优的动作进行实时调度。 2.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法，其特征在于：所述步骤S1 中，利用有限状态机对起爆器生产线建模，对生产工步通过有限状态机建模，所有有限状态机由状态转移条件及状态转移建立起相互联系，依次建立各个工位的状态转移图。 3.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法，其特征在于：所述步骤S2中，实时信息包括机器设备总台数、生产加工计划、各生产工序加工时间、工件加工工序数以及各加工工序开完工时间。 4.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法，其特征在于：所述步骤S3中，起爆器柔性生产车间调度问题描述为合理地将每道工序分配到一个具体的设备，工序要按照指定的加工工艺先后顺序进行加工，并确定开始加工的时间，使其满足调度优化目标。 5.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法，其特征在于：所述步骤S3中，相关假设包括第一假设、第二假设、第三假设；所述第一假设为：各生产机器设备相互独立，加工过程中互不影响；所述第二假设为：在零时刻，任意设备和工件均准备就绪；所述第三假设为：每台设备在任意时刻正在加工的产品只能有一个。 6.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法，其特征在于：所述步骤S4中，所述约束条件包括生产逻辑约束、变量数值约束，所述生产逻辑约束包括制造加工前后顺序约束、设备机器约束、任务交期约束，所述变量数值约束包括特殊工位加工时间约束、工序分派约束、时间约束；所述制造加工前后顺序约束为：其中， Smnr为加工工件m的第n道工序第r道工步； q为机器设备序号； Q为设备总台数；加工设备故障处理BOmnrq中，若工件工步Smnr在加工过程中设备出现故障需要检修，则用1表示，否则用0表示； Bmnrq为加工工件工步Smnr中设备q的故障处理时间； Gmnrq为工件工序Smnr在设备q的加工时间；起爆器生产车间决策变量工序工步设备选择Umnrq中，若加工工步Smnr选择设备机器q生产制造，则用1表示，否则用0表示； r为加工工步序号； rc为工件加工串行工步集合；所述设备机器约束为：权　利　要　求　书 1/3 页 2 CN 115239158 A 2其中， Dmnrq为工件工步Smnr在设备q加工的开工时间；所述任务交期约束为：其中， Cm为加工工件m的任务交期； Em为加工工件m的总加工时间；所述特殊工位加工时间约束为：其中， Tr为存储固化工序r的时间； Hr为试装工步r的时间； Lnr为配胶工步r的时间；所述工序分派约束为：其中， kmnr为加工工件m的第n道工序第r 道工步的设备集合；所述时间约束为：其中， Fm为工件m制造总用时； Fmnrq为工件工序Smnr在设备q加工的完工时间。 7.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法，其特征在于：所述步骤S4中，目标函数为：其中， f为新品种变批量起爆器生产调度的总目标函数； μ1和 μ2分别表示最小化完工时间目标和最小化外协成本目标的权重系数，有0≤ μ1≤1， 0≤ μ2≤1， μ1+μ2＝1； St为所有工件加工工步数集合； FFmn为加工工件工序Smn的外协成本，对于一些交期紧迫，加工任务繁重的订单，企业会做好计划委托外部企业生产不能在交期前完成的加工任务量； SSmn为工步加工外协选择，若加工工件 m的第n道工序需要外协加工，则用1表示，否则用 0表示； ΔEx为新品种变批量起爆器产品第x个加工工艺的参数大小，参数在一定范围内变化，满足 m为起爆器工件序号； A为产品总数量； Fm为工件制造总用时。 8.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法，其特征在于：所述步骤S5中，迁移强化学习算法的训练过程为多智能体的协同学习，智能体i的知识Q矩阵替换变化过程表示如下：权　利　要　求　书 2/3 页 3 CN 115239158 A 3

专利 一种基于迁移强化学习的航天起爆器生产调度方法

专利一种基于迁移强化学习的航天起爆器生产调度方法