专利一种基于深度强化学习的二维异形件排样方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111399771.9 (22)申请日 2021.11.24 (71)申请人季华实验室地址 528200 广东省佛山市南海区桂城街道环岛南路28号 (72)发明人张校志　付鑫　陈良煜　 (74)专利代理机构佛山市君创知识产权代理事务所(普通合伙) 44675 代理人许菲菲 (51)Int.Cl. G06F 30/10(2020.01) G06F 30/27(2020.01) G06Q 10/04(2012.01) (54)发明名称一种基于深度强化学习的二维异形件排样方法 (57)摘要本发明提供了一种基于深度强化学习的二维异形件排样方法，涉及二维异形件排样技术领域，基于深度强化学习对排样问题的场景建模，由被切割的木块和已切割出的木块形状构建观测空间，以需要分割出的形状的尺寸建行动空间，设置奖惩机制，配置深度强化学习训练环境，通过深度强化学习训练排样策略，自动探索和采样，生成训练数据，通过反向传播不断优化策略，直到满足排样任务规定的条件。本发明有益效果：提升搜索的效率，能够应对复杂的二维异形件的排样问题，可以较低成本在不同的需求场景下例如更改母块形状、子块形状、最低切割数量等复用得到新的解决方案。权利要求书2页说明书5页附图2页 CN 114218624 A 2022.03.22 CN 114218624 A 1.一种基于深度强化学习的二维异形件排样方法，将用于切割排样的平面材料称为母块，需要切割出的异形件和非异形件统称为子块，其特征在于，包括以下步骤：步骤1、获取排样任务信息，确定任务的状态空间和行动空间；步骤2、引入辅助决策，减小行动空间：每次采取行动时对剩下未排样的母块区域作腐蚀处理，腐蚀的半径为候选子块的最小半径，最小半径定义为候选子块形状的几何中心距离形状轮廓点的最小距离；步骤3、设置奖惩机制；步骤4、配置深度强化学习训练环境，进行训练，并保存最佳模型；步骤5、根据最佳模型，代入任务场景进行推理计算，得到最终的排样方案。 2.根据权利要求1所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，所述步骤1中确定任务的状态空间和行动空间的具体方法为： (1)确定状态空间S：母块上已被分割为子块的区域和剩余未被分割的区域根据是否分割进行标记，共同构成状态空间S，状态空间S由一个二维空间内一个区域组成，状态空间初始为整个母块都处于未分割的状态； (2)确定行动空间A：行动空间A由子块的属性决定，属性包括子块的尺寸和放置姿态。 3.根据权利要求1所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，所述步骤(2)中行动空间的具体确定方法为：对每个候选子块指定一个标准初始位姿，规定用于实际切割排样放置形状的时候只能相对初始位置旋转{30,60,90,120,150,180,210, 240,270,3 00,330,360}中的一个角度。 4.根据权利要求1所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，所述奖惩机制设置为： (1)无重叠：如果放置的子块与剩余可放置的木块区域不满足子块完全被包围，回合结束，并标记为任务结束，给予惩罚 ‑1； (2)每次在模拟环境中成功切割出一个子块，给予0.01的奖励； (3)时间成本：每增加一步探索，给予 ‑0.001的惩罚； (3)利用率：每次回合结束时，计算剩余未排样的面积占比S_left/S_total，返回对本回合的奖励： γ(1 –S_left/S_total)， γ为超参； (4)子块最小数量要求：定义与子块最小数量有关的奖励，定义这部分奖励为未完成的子块数量占总共需要排样的子块比例的负值： –N_unfinished/N_total。 5.根据权利要求4所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，所述步骤(3)中γ按照任务对材料利用率的要求的严格程度，在0.5～ 2.0之间取值。 6.根据权利要求1所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，配置深度强化学习训练环境，进行训练的内容包括： (1)在母块的可切割区域内根据当前策略π得到下一步的排样动作：基于深度学习的策略π 的输入为当前观测到任务场景的状态S：母块中已被分割出子块的区域、未被分割的区域，其中未被分割的区域按照辅助策略做腐蚀处理后再输入，输出为二维坐标点P、候选子块n以及旋转角度α； (2)在模拟环境中，在母块上，以二维坐标点P为中心点，将候选子块n相对默认位置顺时针旋转角度α 放置入母块，执行分割子块的操作，将这部分区域标记为已分割，根据奖惩权　利　要　求　书 1/2 页 2 CN 114218624 A 2机制，得到环境给予的奖励r； (3)重复步骤(1)至步骤(2)一直到回合结束，回合结束的标志为下列所述条件之一： ①本回合已执行的步数超过设定步数，则立即结束当前回合； ②母块中剩余区域的面积小于设定的阈值表示当前的状态下无法再分割出任何一个子块，结束当前回合；回合结束时，记录本回合的累积奖励R，即本回合每一步的奖励r累加的和，与预设的最佳模型累积奖励阈值R_best比较，比较本回合的累积奖励R是否大于R_best来判断当前模型是否处于最佳模型，如果是则保存本回合的模型为最佳模型，并将R_best的数值更新为当前回合的R； (4)保存本回合的每一步状态转移过程到记忆池，用于训练深度强化学习算法中的价值函数，用梯度下降的方法更新和改进策略π； (5)如果没有接收到停止训练的信号，进行下一回合的探索，重复步骤(1)～(4)，直到出现以下两种状态中的一个或者多个，停止训练： ①累计已执行回合数目超过设定步数，停止训练； ②累积奖励R大于预设的阈值，停止训练。 7.根据权利要求6所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，所述步骤(3)中R_best的初始化取值为‑9999。 8.根据权利要求6所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，所述步骤(3)中所述本回合已执行的步数超过设定步数3 000次，则立即结束当前回合。 9.根据权利要求6所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，所述步骤(5)中阈值设置为候选子块中最小子块面积的3倍。 10.根据权利要求6所述的一种基于深度强化学习的二维异形件排样方法，其特征在于，所述步骤(6)中累计已执行回合数目超过设定步数5 000次，停止训练。权　利　要　求　书 2/2 页 3 CN 114218624 A 3

专利 一种基于深度强化学习的二维异形件排样方法

专利一种基于深度强化学习的二维异形件排样方法