全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221089795 6.0 (22)申请日 2022.07.28 (71)申请人 重庆大学 地址 400044 重庆市沙坪坝区沙坪坝正 街 174号 (72)发明人 魏善碧 余笑 钟豪 戚俊  朱思宁 陈行  (74)专利代理 机构 济南鼎信专利商标代理事务 所(普通合伙) 37245 专利代理师 贾国浩 (51)Int.Cl. G06Q 10/06(2012.01) G06F 30/20(2020.01) G06F 9/448(2018.01) G06N 20/00(2019.01)G06Q 50/04(2012.01) (54)发明名称 一种基于迁移强化学习的航天起爆器生产 调度方法 (57)摘要 本发明公开了一种基于迁移强化学习的航 天起爆器生产调度方法, 主要涉及机器学习 与智 能制造领域; 包括步骤: S1、 对起爆器制造执行过 程柔性生产线建模; S2、 获取起爆器生产车间生 产加工的实时信息; S3、 根据起爆器生产车间收 集的实时信息, 确定起爆器柔性生产车间调度问 题描述和相关假设; S4、 确定起爆器生产车间调 度的约束条件和目标函数; S5、 进行迁移强化学 习的训练; S6、 根据训练得到的策略选取最优的 动作进行实时调度; 本发明能够解决当新品种起 爆器生产工艺参数稍有变动时出现的收敛速度 变缓、 效果变 差、 不能得到最优的调度解的问题。 权利要求书3页 说明书9页 附图4页 CN 115239158 A 2022.10.25 CN 115239158 A 1.一种基于 迁移强化学习的航天起爆器生产调度方法, 其特 征在于, 包括 步骤: S1、 对起爆器制造执 行过程柔性生产线建模; S2、 获取起爆器生产车间生产加工的实时信息; S3、 根据起爆器生产车间收集的实时信息, 确定起爆器柔性生产车间调度问题描述和 相关假设; S4、 确定起爆器生产车间调度的约束条件和目标函数; S5、 进行迁移强化学习的训练; S6、 根据训练得到的策略选取最优的动作进行实时调度。 2.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法, 其特征 在于: 所述步骤S1 中, 利用有限状态机对起爆器生产线建模, 对生产工步通过有限状态机 建 模, 所有有限状态机由状态转移条件及状态转移建立起相互联系, 依 次建立各个工位的状 态转移图。 3.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法, 其特征 在于: 所述步骤S2中, 实时信息包括机器 设备总台数、 生产加工计划、 各生产工序加工时间、 工件加工 工序数以及各加工 工序开完 工时间。 4.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法, 其特征 在于: 所述步骤S3中, 起爆器柔性生产车间调度问题描述为合理地将每道工序分配到一个 具体的设备, 工序要按照 指定的加工工艺先后顺序进 行加工, 并确定开始加工的时间, 使其 满足调度优化目标。 5.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法, 其特征 在于: 所述步骤S3中, 相关假设包括第一假设、 第二假设、 第三假设; 所述第一假设为: 各生 产机器设备相互独立, 加工过程中互不影响; 所述第二假设为: 在零时刻, 任意设备和工件 均准备就 绪; 所述第三 假设为: 每台设备在任意时刻正在加工的产品只能有一个。 6.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法, 其特征 在于: 所述步骤S4中, 所述约束条件包括生产逻辑约束、 变量数值约束, 所述生产逻辑约束 包括制造加工前后顺序约束、 设备机器约束、 任务交期约束, 所述变量数值约束包括特殊工 位加工时间约束、 工序分派约束、 时间约束; 所述制造加工前后顺序约束为: 其中, Smnr为加工工件m的第n道工序第r道工步; q为机器设备序号; Q为设备总台数; 加 工设备故障处理BOmnrq中, 若工件工步Smnr在加工过程中设备出现故障需要检修, 则用1表 示, 否则用0表示; Bmnrq为加工工件工步Smnr中设备q的故障处理时间; Gmnrq为工件工序Smnr在 设备q的加工时间; 起爆器生产车间决策变量工序工步设备选择Umnrq中, 若加工工步Smnr选择设备机器q生 产制造, 则用1表示, 否则用0表示; r为加工 工步序号; rc为工件加工串行工步 集合; 所述设备机器约束为: 权 利 要 求 书 1/3 页 2 CN 115239158 A 2其中, Dmnrq为工件工步Smnr在设备q加工的开工时间; 所述任务交期约束为: 其中, Cm为加工工件m的任务交期; Em为加工工件m的总加工时间; 所述特殊工位加工时间约束为: 其中, Tr为存储固化工序r的时间; Hr为试装工步r的时间; Lnr为配胶工步r的时间; 所述工序分派约束为: 其中, kmnr为加工工件m的第n道工序第r 道工步的设备集 合; 所述时间约束为: 其中, Fm为工件m制造总用时; Fmnrq为工件工序Smnr在设备q加工的完 工时间。 7.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法, 其特征 在于: 所述 步骤S4中, 目标函数为: 其中, f为新品种变批量起爆器生产调度的总目标函数; μ1和 μ2分别表示最小化完工时 间目标和最小化外协成本目标的权重系数, 有0≤ μ1≤1, 0≤ μ2≤1, μ1+μ2=1; St为所有工件 加工工步数集合; FFmn为加工工件工序Smn的外协成本, 对于一些交期紧迫, 加工任务繁重的 订单, 企业会做好计划委托外 部企业生产不能在交期前完成的加工任务 量; SSmn为工步加工外协选择, 若加工工件 m的第n道工序需要外协加工, 则用1表示, 否则用 0表示; ΔEx为新品种变批量起爆器产品第x个加工工艺的参数大小, 参数在一定范围内变 化, 满足 m为起爆器工件序号; A为产品总数量; Fm为工件制造总用时。 8.根据权利要求1所述的一种基于迁移强化学习的航天起爆器生产调度方法, 其特征 在于: 所述步骤S5中, 迁移强化学习算法 的训练过程为多智能体的协同学习, 智能体i的知 识Q矩阵替换变化过程表示如下: 权 利 要 求 书 2/3 页 3 CN 115239158 A 3

.PDF文档 专利 一种基于迁移强化学习的航天起爆器生产调度方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于迁移强化学习的航天起爆器生产调度方法 第 1 页 专利 一种基于迁移强化学习的航天起爆器生产调度方法 第 2 页 专利 一种基于迁移强化学习的航天起爆器生产调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:44:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。