全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210383369.X (22)申请日 2022.04.13 (71)申请人 南京邮电大 学 地址 210009 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 余淼盈 杨尚东 陈蕾 王昱川  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 董建林 (51)Int.Cl. B25J 9/16(2006.01) G01C 21/20(2006.01) G06N 3/04(2006.01) (54)发明名称 一种移动机器人的导航控制方法、 系统及存 储介质 (57)摘要 本发明公开了机器人导航领域的一种移动 机器人的导航控制方法、 系统及存储介质, 包括: 根据真实环境中目标任务数据调整导航控制模 型中子策略的使用次序, 利用导航控制模型对移 动机器人进行导航; 所述导航控制模 型的训练过 程包括: 利用分层强化学习算法构建导航控制模 型, 将LSTM网络引入导航控制模型作为轨迹编码 网络; 通过训练数据集对导航控制模型进行训 练, 通过元训练数据集对导航控制模型的LS TM轨 迹编码网络进行元学习训练; 重复迭代更新获得 函数收敛的最终导航控制模型; 本发 明根据特定 任务以特定次序使用子策略, 简化了学习后的导 航控制模型应用于实际环境的迁移过程, 提高了 导航控制模型的实时性。 权利要求书3页 说明书8页 附图1页 CN 114905505 A 2022.08.16 CN 114905505 A 1.一种移动机器人的导 航控制方法, 其特 征在于, 包括: 利用训练好的导 航控制模型控制移动机器人在真实环境中获取目标任务数据; 根据目标任务数据调整导航控制模型中子策略的使用次序, 利用导航控制模型对移动 机器人进行导 航; 所述导航控制模型的训练过程包括: 利用分层强化学习算法构建导航控制模型, 将LSTM网络引入导航控制模型作为轨迹编 码网络; 搭建导航控制模型的训练环境和移动机器人模型, 通过导航控制模型来控制移动机器 人与训练环境进行交 互获取多组训练数据集; 通过训练数据集对导航控制模型进行训练, 获得更新后的导航控制模型, 利用更新后 的导航控制模型控制移动机器人模型再次与训练环境交互获得多组元训练数据集, 通过元 训练数据集对导航控制模 型的LSTM轨迹编码网络进 行元学习训练; 重复迭代更新 获得函数 收敛的最终导 航控制模型。 2.根据权利要求1所述的一种移动机器人的导航控制方法, 其特征在于, 通过训练数据 集对导航控制模型进行训练, 获得 更新后的导 航控制模型的方法包括: 通过包含多种任务的训练数据集对导航控制模型进行训练, 构建导航控制模型的损失 函数, 根据损失函数计算所述导航控制模型 的训练损失值, 并通过训练损失值梯度下降方 法对导航控制模型参数进行迭代更新, 保存每 个任务的导 航控制模型参数。 3.根据权利要求2所述的一种移动机器人的导航控制方法, 其特征在于, 通过元训练数 据集对导 航控制模型的LSTM 轨迹编码网络进行 元学习训练的方法包括: 根据导航控制模型的损失函数构建元训练损失函数, 计算所述导航控制模型的元训练 损失值, 并通过元训练损失值梯度下降方法对导航控制模型中LSTM轨迹编码网络的参数进 行迭代更新, 获得函数收敛的最终导 航控制模型, 对最终导 航控制模型的参数进行保存。 4.根据权利要求3所述的一种移动机器人的导航控制方法, 其特征在于, 搭建导航控制 模型的训练环境和移动机器人模型, 通过导航控制模型来控制移动机器人与训练环境进 行 交互获取多组训练数据集的方法包括: 采用机器人物 理仿真引擎MuJoCo平台构建移动 机器人模型, 对移动 机器人模型的传感 器参数进行初始化设置; 设计包含若干个障碍物区域和若干个目标点 区域的训练环境, 分别在障碍物区域和目 标点区域随机生成障碍物和目标点获得训练任务, 重置障碍物和目标点的位置采集多组训 练任务, 利用导航控制模型控制移动机器人与训练环境中各组训练任务交互获取训练数据 集。 5.根据权利要求4所述的一种移动机器人的导航控制方法, 其特征在于, 通过导航控制 模型控制移动机器人与训练环境中各组训练任务交 互获取训练数据集包括: 在训练环境中生成一组训练任务, 将移动机器人模型放入训练环境, 通过移动机器人 模型的传感器获取传感器信息; 根据传感器信息编码轨迹信息, 输出轨迹状态zt和记忆隐 变量(ht,ct); 导航控制模型中顶层策略网络πΩ根据得到轨迹状态zt选择策略序号ωt, 启用导航控制 模型中策略序号ωt对应的子策略网络 所述子策略网络 根据轨迹状态zt输出动权 利 要 求 书 1/3 页 2 CN 114905505 A 2作at; 移动机器人模型执行动作at后, 移动机器人模型与训练环境进行交互, 获得奖励rt, 若 碰到障碍物时, rt=‑1, 若碰到目标点时, rt=1, 否则, rt=0; 所述移动机器人模型通过传感器获取下一组传感器信 息并编码轨迹信 息, 获取新的轨 迹状态zt+1; 导航控制模型的终止网络 根据轨迹状态zt+1选择是否终止子策略网络 执行 动作; 若终止子策略网络 执行动作, 通过导航控制模型的值函数网络QU重新选择启动 的子策略网络 利用导航控制模型控制移动机器人模型与 该组训练任务进行交互, 获取一组训练数据 集 在训练环境中重 置训练任务, 重复迭代过程, 获取多组训练数据集 6.根据权利要求5所述的一种移动机器人的导航控制方法, 其特征在于, 根据传感器信 息进行编码轨 迹信息, 输出轨 迹状态zt和记忆隐变量(ht, ct)的方法包括: 由传感器信息获取当前时刻移动机器人模型的状态st, 读取上一时刻保存的记忆隐变 量(ht‑1, ct‑1), 移动机器人模型初始状态的记忆隐变量(ht‑1, ct‑1)为零向量; 将记忆隐变量 (ht‑1, ct‑1)和状态st输入导航控制模型的长短时记忆网络 进行编码轨迹信息, 输出轨迹 状态zt和记忆隐变量(ht, ct)。 7.根据权利要求6所述的一种移动机器人的导航控制方法, 其特征在于, 所述导航控制 模型的损失函数包括损失函数L ossc、 损失函数L ossa和损失函数L ossl; 所述损失函数L ossc的表达公式为: 所述损失函数L ossa的表达公式为: 所述损失函数L ossl的表达公式为: Lossl=Lossa+Lossc 公式中, 表示在轨迹状态为zi时, 选取累积奖励期望最大的子策略 表示在轨迹状态为zi+1, 选取子策略 时, 获得最大累计奖励期望的数 值; γ表示 为折扣率, 范围在[0, 1]。 8.根据权利要求7所述的一种移动机器人的导航控制方法, 其特征在于, 利用更新后的 导航控制模型控制移动机器人模型再次与训练环境交互获得多组元训练数据集的方法包 括: 利用一组训练数据 根据导航控制模型的损失函数, 分别计算损失函数Lossc以权 利 要 求 书 2/3 页 3 CN 114905505 A 3

.PDF文档 专利 一种移动机器人的导航控制方法、系统及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种移动机器人的导航控制方法、系统及存储介质 第 1 页 专利 一种移动机器人的导航控制方法、系统及存储介质 第 2 页 专利 一种移动机器人的导航控制方法、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:22:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。