全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211118607.0 (22)申请日 2022.09.14 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 (72)发明人 杨嘉琛 代慧澳 温家宝 肖帅  (51)Int.Cl. G06N 20/00(2019.01) G06N 5/00(2006.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于序列模型的海洋环境下的强化学 习路径规划算法 (57)摘要 潜航器对于国家海洋资源的勘探和保护具 有重要作用, 但是因为海洋环境的特殊性, 潜航 器在水下工作时无法与外界进行通信, 因此设计 具有自主控制能力的潜航器路径规划算法是其 正常工作的重要保障。 本发明针对复杂海洋环境 中的路径规划任务, 在python仿真环境中使用 decisiontransformer算法控制潜航器的运动。 因为decision  transformer使用轨迹序列进行 动作的预测和控制, 因此摆脱了传统强化学习算 法对输入状态马尔可夫性的要求, 可以在洋流未 知的部分可观测环境中得到一个收敛的最优策 略, 完成既定的路径规划任务, 最终得到了一种 基于序列模型的海洋环境下的强化学习路径规 划算法。 权利要求书2页 说明书4页 附图3页 CN 115470934 A 2022.12.13 CN 115470934 A 1.一种基于序列模型的海洋环境下的强化学习路径规划算法, 其特征在于, 所述方法 包括: (1)使用python仿真环境进行洋流、 障碍物等环境的模拟, 实时获取智能体的位置以及 速度作为状态输入, 通过decision  transformer 网络后得到输出的动作, 通过不断地训练 找到最大化当前 奖励的最优策略, 完成既定的路径规划任务; (2)对数据进行 预处理及保存, 进行 数据的嵌入和位置编码; (3)构建一种基于decision  transformer的网络结构, 其中网络的输入为三段长度各 为K的序列; (4)损失函数的设计; (5)设计适 合路径规划任务的奖励函数; (6)使用动作 作为标签对网络进行训练。 2.如权利要求1所述的复杂海洋环境下离线强化学习路径规划方法, 其特征在于: 所述 步骤(2)中数据处 理方法包 含以下步骤: 采集的数据按照每一局进行存储, 按照未获得的奖励、 状态、 动作的顺序输入到 transfor  mer中, 使用deci sion transformer直接将累计回报作为未 获得的奖励输入到网 络中, 对当前状态之后的所有的奖励进行累加, 作为当前状态的未获得的奖励。 输入三段序列, 每一段序列的特征维度各不相同, 包括未获得的奖励、 状态、 动作, 对三 段序列进行嵌入, 将三段序列分别通过全连接层转化为相同维度的数据, 嵌入完成后的三 个特征向量连接在一起后进行位置编码, 加上 由序列位置产生的特征向量, 经过嵌入和位 置编码后的特 征向量是模型的输入向量。 3.如权利要求1所述的复杂海洋环境下离线强化学习路径规划方法, 其特征在于: 所述 步骤(5)中损失函数的设计与选择包 含以下步骤: 选择的损 失函数满足的条件为: 智能体输出的动作为离散动作时选择交叉熵函数, 输 出的动作为连续动作时选均方误差函数。 本发明验证过程使用的仿真环境输出的是六个离散动作, 所以使用交叉熵函数用来训 练, 输入一段长度为K的序列, 而经过decision  transformer后得到输出, 网络的输出是和 输入相同的数据, 都代表奖励、 状态、 动作。 选择动作项计算交叉熵损失函数, 该过程中使用 的标签是序列中最后一个动作值, 为了使算法在探索和利用之间达到一个平衡, 在损失函 数中添加输出动作的熵, 在训练过程中增大输出动作的熵以选择不同的动作, 增大算法探 索环境的能力。 4.如权利要求1所述的复杂海洋环境下离线强化学习路径规划方法, 其特征在于: 所述 步骤(6)中奖励函数的设计与选择包 含以下步骤: 本发明使用的路径规划任务是到达中间点和目标点并避开障碍物, 因此在智能体到达 中间点和目标点时分别给予较大 的正奖励, 而在遇到障碍物时给予较大 的负奖励, 在朝向 目标点移动时给予很小的惩罚, 在远离目标点时给予很小的惩罚, 但是比朝向目标点移动 的惩罚大。 5.如权利要求1所述的复杂海洋环境下离线强化学习路径规划方法, 其特征在于: 所述 步骤(7)中神经网络的训练包 含以下步骤: 步骤1: 使用随机的策略采集数据。 在 没有数据的情况下首先使用随机策略在环境中采权 利 要 求 书 1/2 页 2 CN 115470934 A 2样得到训练用的一整局数据; 步骤2: 使用采集的数据训练网络。 将采集的数据分为多批送入网络中, 使用前面定义 的交叉熵函数进行训练; 步骤3: 再次与环境交互, 产生新的经验。 经过训练的网络已经初步了解了该环境, 再次 采样得到的经验更有针对性, 其中在采样时需要输入初始的未获得的奖励值, 该最优奖励 值需要通过环境特点和奖励设定计算得到 。 采样得到数据按局填充 进缓冲区; 步骤4: 不断重复步骤2和步骤3, 直到得到较优的策略。权 利 要 求 书 2/2 页 3 CN 115470934 A 3

.PDF文档 专利 一种基于序列模型的海洋环境下的强化学习路径规划算法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于序列模型的海洋环境下的强化学习路径规划算法 第 1 页 专利 一种基于序列模型的海洋环境下的强化学习路径规划算法 第 2 页 专利 一种基于序列模型的海洋环境下的强化学习路径规划算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。