专利一种基于序列模型的海洋环境下的强化学习路径规划算法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211118607.0 (22)申请日 2022.09.14 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人杨嘉琛　代慧澳　温家宝　肖帅　 (51)Int.Cl. G06N 20/00(2019.01) G06N 5/00(2006.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于序列模型的海洋环境下的强化学习路径规划算法 (57)摘要潜航器对于国家海洋资源的勘探和保护具有重要作用，但是因为海洋环境的特殊性，潜航器在水下工作时无法与外界进行通信，因此设计具有自主控制能力的潜航器路径规划算法是其正常工作的重要保障。本发明针对复杂海洋环境中的路径规划任务，在python仿真环境中使用 decisiontransformer算法控制潜航器的运动。因为decision transformer使用轨迹序列进行动作的预测和控制，因此摆脱了传统强化学习算法对输入状态马尔可夫性的要求，可以在洋流未知的部分可观测环境中得到一个收敛的最优策略，完成既定的路径规划任务，最终得到了一种基于序列模型的海洋环境下的强化学习路径规划算法。权利要求书2页说明书4页附图3页 CN 115470934 A 2022.12.13 CN 115470934 A 1.一种基于序列模型的海洋环境下的强化学习路径规划算法，其特征在于，所述方法包括： (1)使用python仿真环境进行洋流、障碍物等环境的模拟，实时获取智能体的位置以及速度作为状态输入，通过decision transformer 网络后得到输出的动作，通过不断地训练找到最大化当前奖励的最优策略，完成既定的路径规划任务； (2)对数据进行预处理及保存，进行数据的嵌入和位置编码； (3)构建一种基于decision transformer的网络结构，其中网络的输入为三段长度各为K的序列； (4)损失函数的设计； (5)设计适合路径规划任务的奖励函数； (6)使用动作作为标签对网络进行训练。 2.如权利要求1所述的复杂海洋环境下离线强化学习路径规划方法，其特征在于：所述步骤(2)中数据处理方法包含以下步骤：采集的数据按照每一局进行存储，按照未获得的奖励、状态、动作的顺序输入到 transfor mer中，使用deci sion transformer直接将累计回报作为未获得的奖励输入到网络中，对当前状态之后的所有的奖励进行累加，作为当前状态的未获得的奖励。输入三段序列，每一段序列的特征维度各不相同，包括未获得的奖励、状态、动作，对三段序列进行嵌入，将三段序列分别通过全连接层转化为相同维度的数据，嵌入完成后的三个特征向量连接在一起后进行位置编码，加上由序列位置产生的特征向量，经过嵌入和位置编码后的特征向量是模型的输入向量。 3.如权利要求1所述的复杂海洋环境下离线强化学习路径规划方法，其特征在于：所述步骤(5)中损失函数的设计与选择包含以下步骤：选择的损失函数满足的条件为：智能体输出的动作为离散动作时选择交叉熵函数，输出的动作为连续动作时选均方误差函数。本发明验证过程使用的仿真环境输出的是六个离散动作，所以使用交叉熵函数用来训练，输入一段长度为K的序列，而经过decision transformer后得到输出，网络的输出是和输入相同的数据，都代表奖励、状态、动作。选择动作项计算交叉熵损失函数，该过程中使用的标签是序列中最后一个动作值，为了使算法在探索和利用之间达到一个平衡，在损失函数中添加输出动作的熵，在训练过程中增大输出动作的熵以选择不同的动作，增大算法探索环境的能力。 4.如权利要求1所述的复杂海洋环境下离线强化学习路径规划方法，其特征在于：所述步骤(6)中奖励函数的设计与选择包含以下步骤：本发明使用的路径规划任务是到达中间点和目标点并避开障碍物，因此在智能体到达中间点和目标点时分别给予较大的正奖励，而在遇到障碍物时给予较大的负奖励，在朝向目标点移动时给予很小的惩罚，在远离目标点时给予很小的惩罚，但是比朝向目标点移动的惩罚大。 5.如权利要求1所述的复杂海洋环境下离线强化学习路径规划方法，其特征在于：所述步骤(7)中神经网络的训练包含以下步骤：步骤1：使用随机的策略采集数据。在没有数据的情况下首先使用随机策略在环境中采权　利　要　求　书 1/2 页 2 CN 115470934 A 2样得到训练用的一整局数据；步骤2：使用采集的数据训练网络。将采集的数据分为多批送入网络中，使用前面定义的交叉熵函数进行训练；步骤3：再次与环境交互，产生新的经验。经过训练的网络已经初步了解了该环境，再次采样得到的经验更有针对性，其中在采样时需要输入初始的未获得的奖励值，该最优奖励值需要通过环境特点和奖励设定计算得到。采样得到数据按局填充进缓冲区；步骤4：不断重复步骤2和步骤3，直到得到较优的策略。权　利　要　求　书 2/2 页 3 CN 115470934 A 3

专利 一种基于序列模型的海洋环境下的强化学习路径规划算法

专利一种基于序列模型的海洋环境下的强化学习路径规划算法