全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111637946.5 (22)申请日 2021.12.2 9 (71)申请人 同济大学 地址 200092 上海市杨 浦区四平路1239号 (72)发明人 刘成菊 陈启军 张浩  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 代理人 杨宏泰 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/02(2006.01) (54)发明名称 一种基于双智能体竞争强化学习的机器人 路径探索方法 (57)摘要 本发明涉及一种基于双智能体竞争强化学 习的机器人路径探索方法, 包括以下步骤: S1、 构 建马尔科夫决策模型, 初始化智 能体和经验池; S2、 记录智能体Agent1当前状态st, 探索k步记录 当前轨迹序列至经验池Buffer1; S3、 将智能体 Agent2置于状态st处, 智能体Agent2探索k步, 记 录当前轨迹序列至经验池Buffer2; S4、 以探索轨 迹之间的相似度 作为智能体Agent1的额外奖 励, 相反数 作为智能体Agent2的额外奖励; S5、 当经验池中数据数数目满足要求, 更新智能 体Agent1与Agent2的策略; S6、 重复执行步骤S2 ‑ S5, 直到智能体Agent1到达目标状态 或超出设定 时间tlimit; S7、 重复执行步骤S1 ‑S6直到完成设 定训练剧集数。 与现有技术相比, 本发明使智能 体能够更有效的探索, 加快训练速度, 提升样本 的利用效率, 同时能够有效消除随机噪声, 更具 有鲁棒性。 权利要求书2页 说明书5页 附图3页 CN 114372520 A 2022.04.19 CN 114372520 A 1.一种基于双智能体竞争强化学习的机器人路径探索方法, 其特征在于, 该方法包括 以下步骤: S1、 构建马尔科夫决策模型, 初始化智能体Agent1与智能体Agent2, 并初始化经验池 Buffer1与Buffer2; S2、 记录智能体Agent1当前状态st, 智能体Agent1依照现有策略探索k步, 记录当前轨迹 序列至经验 池Buffer1; S3、 将智能体Agent2置于状态st处, 智能体Agent2依照其策略探索 k步, 记录当前轨迹序 列至经验 池Buffer2; S4、 使用交叉熵函数评估两个智能体的探索轨迹之间的相似度 作为智能体Agent1 的额外奖励, 相似度 的相反数 作为智能体Agent2的额外奖励, 并更新经验池Buffer1 与Buffer2中对应轨的奖励信息; S5、 当经验 池中数据数 数目满足要求, 更新智能体Agent1与Agent2的策略; S6、 重复执 行步骤S2 ‑S5, 直到智能体Agent1到达目标状态或超出设定时间tlimit; S7、 重复执 行步骤S1 ‑S6直到完成设定训练剧集数。 2.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 所述的步骤S1中, 构建马尔可夫决策模型, 以智能体在当前位置可观测的区域图 像作为当前状态, 在给定当前状态st下, 智能体按照策略π(a|s)选择当前动作at与环境交 互, 并达到下一状态st+1, 获得奖励rt, 智能体的目标是得到最优策略π★使得累计奖励最大, 所述的奖励rt具体设置为: 当智能体到 达目标位置, 给予+10 0的奖励, 其 余位置均给予 ‑1的奖励。 3.根据权利要求2所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 所述的步骤S1中, 智能体采用DDQN强化学习方法, 初始化网络Q, 智能体的策略π (a|s)按照D DQN强化学习方法给定, 具体选择 ε ‑greedy策略, 则有: 其中, m为智能体的动作数目, 即动作集合A={a1,a2,a3,a4,a5,a6,a7}的动作总数, a1, a2,a3,a4,a5,a6,a7分别表示智能体向前、 向后、 向左、 向右移动一格、 左转、 右转及停在原地, ε为常数。 4.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 所述的步骤S2中, 设定步长k, 智能体Agent1探索k步得到轨迹序列{s1 t,a1 t,s1 t+1, r1 t},{s1 t+1,a1 t+1,s1 t+2,r1 t+1}…{s1 t+k,a1 t+k,s1 t+k,r1 t+k}并存储到经验池Buffer1, 智能体 Agent1每一步的探索策略使用贪婪算法获得当前动作。 5.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 所述的步骤S3中, 将智能体Agent2的位置至于Agent1的当前段探索初始位置 探索k步得到轨迹序列{s2 t,a2 t,s2 t+1,r2 t},{s2 t+1,a2 t+1,s2 t+2,r2 t+1}…{s2 t+k,a2 t+k, s2 t+k,r2 t+k}并存储到经验池Buffer2, 智能体Agent2每一步的探索策略使用贪婪算法获得当权 利 要 求 书 1/2 页 2 CN 114372520 A 2前动作。 6.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 所述的步骤S4中, 从经验池Buffer1和Buffer2中分别取出探索轨迹 将其分别标准化后得到轨迹T1和T2, 获取两轨迹 间交叉熵绝对值clip(abs( ‑∑T1log(T2)),0,1)作为两个轨迹T1和T2的相似度 并更新轨 迹奖励 λ为衰减系数。 7.根据权利要求6所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 为确保收敛, 每次更新后衰减系数 λ变为上一 步的0.9倍。 8.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 所述的步骤S5中, 对于智能体Agent1和Agent2, 采用DDQN方法进行策略更新, 则 有: 对 于 智 能 体 A g e n t1,从 经 验 池 B u f f e r1中 随 机 采 样 l 段 轨 迹 序 列 并计算当前Q值 目标y1 j=r1 j+γQ′(s1 j+1,argmaxa′Q(s1 j+1,a, w),w′), 其中, Q为DDQN算法中的当前网络, w为其网络参数, Q ′为DDQN算法中的目标网络, w ′ 为目标网络的网络参数, γ为衰减系数, 然后获取均方差损失函数 通过神经网络的梯度反向更新当前网络Q, 并每隔 q次将Q的网络参数 更新至Q′。 9.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 所述的步骤S6中, 设定时间tlimit设为100。 10.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其 特征在于, 所述的步骤S7中, 训练剧集数设置为5 00。权 利 要 求 书 2/2 页 3 CN 114372520 A 3

.PDF文档 专利 一种基于双智能体竞争强化学习的机器人路径探索方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双智能体竞争强化学习的机器人路径探索方法 第 1 页 专利 一种基于双智能体竞争强化学习的机器人路径探索方法 第 2 页 专利 一种基于双智能体竞争强化学习的机器人路径探索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:42:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。