专利一种基于深度强化学习的机器人推拨装箱方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210505516.6 (22)申请日 2022.05.10 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人吴建华　张浩东　熊振华　朱向阳　盛鑫军　 (74)专利代理机构上海旭诚知识产权代理有限公司 312 20 专利代理师郑立 (51)Int.Cl. B25J 9/16(2006.01) B65B 5/00(2006.01) (54)发明名称一种基于深度强化学习的机器人推拨装箱方法及系统 (57)摘要本发明公开了一种基于深度强化学习的机器人推拨装箱方法及系统，涉及机器人装箱领域，包括如下步骤：在仿真环境中使用强化学习方法训练推拨深度神经网络；将物体放置在箱子中，通过训练好的所述推拨深度神经网络，获取所述推拨深度神经网络输出的推拨动作；机器人执行所述推拨动作，将所述物体推动至所述箱子中的合适位置。本发明通过深度强化学习方法学习推拨动作，避免传统方法所需要对摩擦力等参数做强有力假设的问题，通过学习到的推拨动作完成装箱任务，减少了装箱过程中机器人由于感知误差和操作不确定性对结果的影响。权利要求书2页说明书6页附图2页 CN 114800512 A 2022.07.29 CN 114800512 A 1.一种基于深度强化学习的机器人推拨装箱方法，其特征在于，所述方法包括以下步骤： S101：在仿真环境中使用强化学习方法训练推拨深度神经网络； S103：将物体放置在箱子中，通过训练好的所述推拨深度神经网络，获取所述推拨深度神经网络输出的推拨动作； S105：机器人执行所述推拨动作，将所述物体推动至所述箱子中的合适位置。 2.如权利要求1所述的机器人推拨装箱方法，其特征在于，所述强化学习方法使用Q ‑ learning算法，将状态空间表示为所述箱子内所述物体的RGB图像和高度图像，动作空间参数化为所述物体的X、 Y坐标和推动方向。 3.如权利要求2所述的机器人推拨装箱方法，其特征在于，所述S101步骤包括如下步骤： S1011：在所述仿真环境中采用DBLF算法确定放置位置，将所述物体放置在所述放置位置上； S1012：通过所述推拨深度神经网络选择推拨动作，使用机器人完成所述推拨动作，计算本次推拨的奖励值并训练所述推拨深度神经网络，所述奖励值采用如下奖励函数计算得到：其中， Rt表示t时刻奖励期望， γ表示折扣因子， γ＝0.5， Ra(st,st+1)表示状态从St转移到St+1的动作奖励； S1013：当所述推拨次数未超过预定次数时，继续执行所述S1012步骤； S1014：放入下一个所述物体，当放入所述物体的数量未超过预定数量时，执行步骤所述S1011‑S1013步骤，否则，完成本轮所述推拨深度神经网络的训练。 4.如权利要求3所述的机器人推拨装箱方法，其特征在于，所述S1012步骤还包括如下步骤：使用RGBD相机采集箱内所述物体的RGB图像和深度图像，并沿重力方向投影获得高度图；将所述RGB图像和所述深度图像输入所述推拨深度神经网络中提取特征，通过两层卷积神经网络和一层上采样得到与输入图像大小相同的输出，所述输出包括 16张与输入图像大小相同的动作价值图；选择所述动作价值图中动作价值最大的像素所对应的所述推拨动作作为所述推拨深度神经网络的输出动作，机器人使用所述推拨动作完成箱子的推拨操作；使用DBLF启发式算法计算所述物体的放置位置分数，并将执行动作前后的所述分数差作为奖励，使用所述奖励对所述推拨深度神经网络进行训练。 5.如权利要求4所述的机器人推拨装箱方法，其特征在于，所述16张动作价值图代表与将重力方向垂直的表面平分为16个推动方向，每一个像素对应所述动作空间中的X、 Y坐标， Z轴高度为根据所述深度图像计算的手爪与其他物体不发生碰撞时的最低高度，推动距离为预先设置的固定距离。权　利　要　求　书 1/2 页 2 CN 114800512 A 26.如权利要求1所述的机器人推拨装箱方法，其特征在于，使用所述强化学习方法训练所述推拨深度神经网络时，对所述动作空间进行掩码操作，减少训练过程中的无效探索，所述掩码操作由掩码函数实现，所述掩码函数为M(st， a)，当动作a在状态st下一定失败时M＝ 0，否则M＝1。 7.如权利要求1所述的机器人推拨装箱方法，其特征在于，在所述S103步骤中，将所述物体放置到所述箱子中时，使用所述DBLF启发式算法确定所述物体的所述放置位置。 8.如权利要求1所述的机器人推拨装箱方法，其特征在于，在所述S105步骤中，获取所述推拨深度神经网络每次输出的所述动作价值，当所述动作价值小于预定阈值时，则判定已将所述物体推动到合适位置。 9.一种基于深度强化学习的机器人推拨装箱系统，其特征在于，所述系统采用如权利要求1‑8中任意一项所述的方法，完成对所述箱子内部所述物体的推拨操作。 10.如权利要求9所述的机器人推拨装箱系统，其特征在于，所述系统包括六自由度机械臂，平行二指夹爪，手眼相机和容纳箱，所述手眼相机和所述平行二指夹爪安装在所述六自由度机械臂的末端，所述手眼相机和所述平行二指夹爪执行抓取和推拨操作，所述容纳箱的四个角均放置一个aruco码，所述手眼相机根据所述aruco码来识别所述容纳箱的位姿。权　利　要　求　书 2/2 页 3 CN 114800512 A 3

专利 一种基于深度强化学习的机器人推拨装箱方法及系统

专利一种基于深度强化学习的机器人推拨装箱方法及系统