全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210505516.6 (22)申请日 2022.05.10 (71)申请人 上海交通大 学 地址 200240 上海市闵行区东川路80 0号 (72)发明人 吴建华 张浩东 熊振华 朱向阳  盛鑫军  (74)专利代理 机构 上海旭诚知识产权代理有限 公司 312 20 专利代理师 郑立 (51)Int.Cl. B25J 9/16(2006.01) B65B 5/00(2006.01) (54)发明名称 一种基于深度强化学习的机器人推拨装箱 方法及系统 (57)摘要 本发明公开了一种基于深度强化学习的机 器人推拨装箱方法及系统, 涉及机器人装箱领 域, 包括如下步骤: 在仿真环境中使用强化学习 方法训练推拨深度神经网络; 将物体放置在箱子 中, 通过训练好的所述推拨深度神经网络, 获取 所述推拨深度神经网络输出的推拨动作; 机器人 执行所述推拨动作, 将所述物体推动至所述箱子 中的合适位置。 本发明通过深度强化学习方法学 习推拨动作, 避免传统方法所需要对摩擦力等参 数做强有力假设的问题, 通过学习到的推拨动作 完成装箱任务, 减少了装箱过程中机器人由于感 知误差和操作不确定性对结果的影响。 权利要求书2页 说明书6页 附图2页 CN 114800512 A 2022.07.29 CN 114800512 A 1.一种基于深度强化学习的机器人推拨装箱方法, 其特征在于, 所述方法包括以下步 骤: S101: 在仿真环境中使用强化学习方法训练推拨深度神经网络; S103: 将物体放置在箱子中, 通过训练好的所述推拨深度神经网络, 获取所述推拨深度 神经网络 输出的推拨动作; S105: 机器人 执行所述推拨动作, 将所述物体 推动至所述箱子中的合 适位置。 2.如权利要求1所述的机器人推拨装箱方法, 其特征在于, 所述强化学习方法使用Q ‑ learning算法, 将 状态空间表 示为所述箱子内所述物体的RGB图像和高度图像, 动作空间参 数化为所述物体的X、 Y坐标和推动方向。 3.如权利要求2所述的机器人推拨装箱方法, 其特征在于, 所述S101步骤包括如下步 骤: S1011: 在 所述仿真环境中采用DBLF算法确定放置位置, 将所述物体放置在所述放置位 置上; S1012: 通过所述推拨深度神经网络选择推拨动作, 使用机器人完成所述推拨动作, 计 算本次推拨的奖励值并训练所述推拨深度神经网络, 所述奖励值采用如下奖励函数计算得 到: 其中, Rt表示t时刻奖励期望, γ表示折扣因子, γ=0.5, Ra(st,st+1)表示状态从St转移 到St+1的动作奖励; S1013: 当所述推拨次数 未超过预定次数时, 继续执 行所述S1012步骤; S1014: 放入下一个所述物体, 当放入所述物体的数量未超过预定数量时, 执行步骤所 述S1011‑S1013步骤, 否则, 完成本轮所述推拨深度神经网络的训练。 4.如权利要求3所述的机器人推拨装箱方法, 其特征在于, 所述S1012步骤还包括如下 步骤: 使用RGBD相机采集箱内所述物体的RGB图像和深度图像, 并沿重力方向投影获得高度 图; 将所述RGB图像和所述深度图像输入所述推拨深度神经网络中提取特征, 通过两层卷 积神经网络和一层上采样得到与输入图像大小相同的输出, 所述输出包括 16张与输入图像 大小相同的动作价 值图; 选择所述动作价值图中动作价值最大的像素所对应的所述推拨动作作为所述推拨深 度神经网络的输出动作, 机器人使用所述推拨动作完成箱子的推拨操作; 使用DBLF启发式算法计算所述物体的放置位置分数, 并将执行动作前后的所述分数差 作为奖励, 使用所述奖励对所述推拨深度神经网络进行训练。 5.如权利要求4所述的机器人推拨装箱方法, 其特征在于, 所述16张动作价值图代表与 将重力方向垂直的表面平分为16个推动方向, 每一个像素对应所述动作空间中的X、 Y坐标, Z轴高度为根据所述深度图像计算的手爪与其他物体不发生碰撞 时的最低高度, 推动距离 为预先设置的固定距离 。权 利 要 求 书 1/2 页 2 CN 114800512 A 26.如权利要求1所述的机器人推拨装箱方法, 其特征在于, 使用所述强化学习方法训练 所述推拨深度神经网络时, 对所述动作空间进行掩码操作, 减少训练过程中的无效探索, 所 述掩码操作由掩码函数实现, 所述掩码函数为M(st, a), 当动作a在状态st下一定失败时M= 0, 否则M=1。 7.如权利要求1所述的机器人推拨装箱方法, 其特征在于, 在所述S103步骤中, 将所述 物体放置 到所述箱子中时, 使用所述DBLF启发式算法确定所述物体的所述 放置位置 。 8.如权利要求1所述的机器人推拨装箱方法, 其特征在于, 在所述S105步骤中, 获取所 述推拨深度神经网络每次输出 的所述动作价值, 当所述动作价值小于预定阈值时, 则判定 已将所述物体 推动到合 适位置。 9.一种基于深度强化学习的机器人推拨装箱系统, 其特征在于, 所述系统采用 如权利 要求1‑8中任意一项所述的方法, 完成对所述箱子内部所述物体的推拨操作。 10.如权利要求9所述的机器人推拨装箱系统, 其特征在于, 所述系统包括六自由度机 械臂, 平行二指 夹爪, 手眼相机和容纳箱, 所述手眼相机和所述平行二指 夹爪安装在所述六 自由度机械臂的末端, 所述手眼相 机和所述平行二指夹爪执行抓取和推拨操作, 所述容纳 箱的四个角均放置一个aruco码, 所述手眼相机根据所述aruco码来识别所述容纳箱的位 姿。权 利 要 求 书 2/2 页 3 CN 114800512 A 3

.PDF文档 专利 一种基于深度强化学习的机器人推拨装箱方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的机器人推拨装箱方法及系统 第 1 页 专利 一种基于深度强化学习的机器人推拨装箱方法及系统 第 2 页 专利 一种基于深度强化学习的机器人推拨装箱方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:19:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。