专利一种移动机器人的导航控制方法、系统及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210383369.X (22)申请日 2022.04.13 (71)申请人南京邮电大学地址 210009 江苏省南京市鼓楼区新模范马路66号 (72)发明人余淼盈　杨尚东　陈蕾　王昱川　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 专利代理师董建林 (51)Int.Cl. B25J 9/16(2006.01) G01C 21/20(2006.01) G06N 3/04(2006.01) (54)发明名称一种移动机器人的导航控制方法、系统及存储介质 (57)摘要本发明公开了机器人导航领域的一种移动机器人的导航控制方法、系统及存储介质，包括：根据真实环境中目标任务数据调整导航控制模型中子策略的使用次序，利用导航控制模型对移动机器人进行导航；所述导航控制模型的训练过程包括：利用分层强化学习算法构建导航控制模型，将LSTM网络引入导航控制模型作为轨迹编码网络；通过训练数据集对导航控制模型进行训练，通过元训练数据集对导航控制模型的LS TM轨迹编码网络进行元学习训练；重复迭代更新获得函数收敛的最终导航控制模型；本发明根据特定任务以特定次序使用子策略，简化了学习后的导航控制模型应用于实际环境的迁移过程，提高了导航控制模型的实时性。权利要求书3页说明书8页附图1页 CN 114905505 A 2022.08.16 CN 114905505 A 1.一种移动机器人的导航控制方法，其特征在于，包括：利用训练好的导航控制模型控制移动机器人在真实环境中获取目标任务数据；根据目标任务数据调整导航控制模型中子策略的使用次序，利用导航控制模型对移动机器人进行导航；所述导航控制模型的训练过程包括：利用分层强化学习算法构建导航控制模型，将LSTM网络引入导航控制模型作为轨迹编码网络；搭建导航控制模型的训练环境和移动机器人模型，通过导航控制模型来控制移动机器人与训练环境进行交互获取多组训练数据集；通过训练数据集对导航控制模型进行训练，获得更新后的导航控制模型，利用更新后的导航控制模型控制移动机器人模型再次与训练环境交互获得多组元训练数据集，通过元训练数据集对导航控制模型的LSTM轨迹编码网络进行元学习训练；重复迭代更新获得函数收敛的最终导航控制模型。 2.根据权利要求1所述的一种移动机器人的导航控制方法，其特征在于，通过训练数据集对导航控制模型进行训练，获得更新后的导航控制模型的方法包括：通过包含多种任务的训练数据集对导航控制模型进行训练，构建导航控制模型的损失函数，根据损失函数计算所述导航控制模型的训练损失值，并通过训练损失值梯度下降方法对导航控制模型参数进行迭代更新，保存每个任务的导航控制模型参数。 3.根据权利要求2所述的一种移动机器人的导航控制方法，其特征在于，通过元训练数据集对导航控制模型的LSTM 轨迹编码网络进行元学习训练的方法包括：根据导航控制模型的损失函数构建元训练损失函数，计算所述导航控制模型的元训练损失值，并通过元训练损失值梯度下降方法对导航控制模型中LSTM轨迹编码网络的参数进行迭代更新，获得函数收敛的最终导航控制模型，对最终导航控制模型的参数进行保存。 4.根据权利要求3所述的一种移动机器人的导航控制方法，其特征在于，搭建导航控制模型的训练环境和移动机器人模型，通过导航控制模型来控制移动机器人与训练环境进行交互获取多组训练数据集的方法包括：采用机器人物理仿真引擎MuJoCo平台构建移动机器人模型，对移动机器人模型的传感器参数进行初始化设置；设计包含若干个障碍物区域和若干个目标点区域的训练环境，分别在障碍物区域和目标点区域随机生成障碍物和目标点获得训练任务，重置障碍物和目标点的位置采集多组训练任务，利用导航控制模型控制移动机器人与训练环境中各组训练任务交互获取训练数据集。 5.根据权利要求4所述的一种移动机器人的导航控制方法，其特征在于，通过导航控制模型控制移动机器人与训练环境中各组训练任务交互获取训练数据集包括：在训练环境中生成一组训练任务，将移动机器人模型放入训练环境，通过移动机器人模型的传感器获取传感器信息；根据传感器信息编码轨迹信息，输出轨迹状态zt和记忆隐变量(ht,ct)；导航控制模型中顶层策略网络πΩ根据得到轨迹状态zt选择策略序号ωt，启用导航控制模型中策略序号ωt对应的子策略网络所述子策略网络根据轨迹状态zt输出动权　利　要　求　书 1/3 页 2 CN 114905505 A 2作at；移动机器人模型执行动作at后，移动机器人模型与训练环境进行交互，获得奖励rt，若碰到障碍物时， rt＝‑1，若碰到目标点时， rt＝1，否则， rt＝0；所述移动机器人模型通过传感器获取下一组传感器信息并编码轨迹信息，获取新的轨迹状态zt+1；导航控制模型的终止网络根据轨迹状态zt+1选择是否终止子策略网络执行动作；若终止子策略网络执行动作，通过导航控制模型的值函数网络QU重新选择启动的子策略网络利用导航控制模型控制移动机器人模型与该组训练任务进行交互，获取一组训练数据集在训练环境中重置训练任务，重复迭代过程，获取多组训练数据集 6.根据权利要求5所述的一种移动机器人的导航控制方法，其特征在于，根据传感器信息进行编码轨迹信息，输出轨迹状态zt和记忆隐变量(ht， ct)的方法包括：由传感器信息获取当前时刻移动机器人模型的状态st，读取上一时刻保存的记忆隐变量(ht‑1， ct‑1)，移动机器人模型初始状态的记忆隐变量(ht‑1， ct‑1)为零向量；将记忆隐变量 (ht‑1， ct‑1)和状态st输入导航控制模型的长短时记忆网络进行编码轨迹信息，输出轨迹状态zt和记忆隐变量(ht， ct)。 7.根据权利要求6所述的一种移动机器人的导航控制方法，其特征在于，所述导航控制模型的损失函数包括损失函数L ossc、损失函数L ossa和损失函数L ossl；所述损失函数L ossc的表达公式为：所述损失函数L ossa的表达公式为：所述损失函数L ossl的表达公式为： Lossl＝Lossa+Lossc 公式中，表示在轨迹状态为zi时，选取累积奖励期望最大的子策略表示在轨迹状态为zi+1，选取子策略时，获得最大累计奖励期望的数值； γ表示为折扣率，范围在[0， 1]。 8.根据权利要求7所述的一种移动机器人的导航控制方法，其特征在于，利用更新后的导航控制模型控制移动机器人模型再次与训练环境交互获得多组元训练数据集的方法包括：利用一组训练数据根据导航控制模型的损失函数，分别计算损失函数Lossc以权　利　要　求　书 2/3 页 3 CN 114905505 A 3

专利 一种移动机器人的导航控制方法、系统及存储介质

专利一种移动机器人的导航控制方法、系统及存储介质