(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111637946.5
(22)申请日 2021.12.2 9
(71)申请人 同济大学
地址 200092 上海市杨 浦区四平路1239号
(72)发明人 刘成菊 陈启军 张浩
(74)专利代理 机构 上海科盛知识产权代理有限
公司 312 25
代理人 杨宏泰
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/02(2006.01)
(54)发明名称
一种基于双智能体竞争强化学习的机器人
路径探索方法
(57)摘要
本发明涉及一种基于双智能体竞争强化学
习的机器人路径探索方法, 包括以下步骤: S1、 构
建马尔科夫决策模型, 初始化智 能体和经验池;
S2、 记录智能体Agent1当前状态st, 探索k步记录
当前轨迹序列至经验池Buffer1; S3、 将智能体
Agent2置于状态st处, 智能体Agent2探索k步, 记
录当前轨迹序列至经验池Buffer2; S4、 以探索轨
迹之间的相似度
作为智能体Agent1的额外奖
励, 相反数
作为智能体Agent2的额外奖励;
S5、 当经验池中数据数数目满足要求, 更新智能
体Agent1与Agent2的策略; S6、 重复执行步骤S2 ‑
S5, 直到智能体Agent1到达目标状态 或超出设定
时间tlimit; S7、 重复执行步骤S1 ‑S6直到完成设
定训练剧集数。 与现有技术相比, 本发明使智能
体能够更有效的探索, 加快训练速度, 提升样本
的利用效率, 同时能够有效消除随机噪声, 更具
有鲁棒性。
权利要求书2页 说明书5页 附图3页
CN 114372520 A
2022.04.19
CN 114372520 A
1.一种基于双智能体竞争强化学习的机器人路径探索方法, 其特征在于, 该方法包括
以下步骤:
S1、 构建马尔科夫决策模型, 初始化智能体Agent1与智能体Agent2, 并初始化经验池
Buffer1与Buffer2;
S2、 记录智能体Agent1当前状态st, 智能体Agent1依照现有策略探索k步, 记录当前轨迹
序列至经验 池Buffer1;
S3、 将智能体Agent2置于状态st处, 智能体Agent2依照其策略探索 k步, 记录当前轨迹序
列至经验 池Buffer2;
S4、 使用交叉熵函数评估两个智能体的探索轨迹之间的相似度
作为智能体Agent1
的额外奖励, 相似度
的相反数
作为智能体Agent2的额外奖励, 并更新经验池Buffer1
与Buffer2中对应轨的奖励信息;
S5、 当经验 池中数据数 数目满足要求, 更新智能体Agent1与Agent2的策略;
S6、 重复执 行步骤S2 ‑S5, 直到智能体Agent1到达目标状态或超出设定时间tlimit;
S7、 重复执 行步骤S1 ‑S6直到完成设定训练剧集数。
2.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 所述的步骤S1中, 构建马尔可夫决策模型, 以智能体在当前位置可观测的区域图
像作为当前状态, 在给定当前状态st下, 智能体按照策略π(a|s)选择当前动作at与环境交
互, 并达到下一状态st+1, 获得奖励rt, 智能体的目标是得到最优策略π★使得累计奖励最大,
所述的奖励rt具体设置为:
当智能体到 达目标位置, 给予+10 0的奖励, 其 余位置均给予 ‑1的奖励。
3.根据权利要求2所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 所述的步骤S1中, 智能体采用DDQN强化学习方法, 初始化网络Q, 智能体的策略π
(a|s)按照D DQN强化学习方法给定, 具体选择 ε ‑greedy策略, 则有:
其中, m为智能体的动作数目, 即动作集合A={a1,a2,a3,a4,a5,a6,a7}的动作总数, a1,
a2,a3,a4,a5,a6,a7分别表示智能体向前、 向后、 向左、 向右移动一格、 左转、 右转及停在原地,
ε为常数。
4.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 所述的步骤S2中, 设定步长k, 智能体Agent1探索k步得到轨迹序列{s1
t,a1
t,s1
t+1,
r1
t},{s1
t+1,a1
t+1,s1
t+2,r1
t+1}…{s1
t+k,a1
t+k,s1
t+k,r1
t+k}并存储到经验池Buffer1, 智能体
Agent1每一步的探索策略使用贪婪算法获得当前动作。
5.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 所述的步骤S3中, 将智能体Agent2的位置至于Agent1的当前段探索初始位置
探索k步得到轨迹序列{s2
t,a2
t,s2
t+1,r2
t},{s2
t+1,a2
t+1,s2
t+2,r2
t+1}…{s2
t+k,a2
t+k,
s2
t+k,r2
t+k}并存储到经验池Buffer2, 智能体Agent2每一步的探索策略使用贪婪算法获得当权 利 要 求 书 1/2 页
2
CN 114372520 A
2前动作。
6.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 所述的步骤S4中, 从经验池Buffer1和Buffer2中分别取出探索轨迹
将其分别标准化后得到轨迹T1和T2, 获取两轨迹
间交叉熵绝对值clip(abs( ‑∑T1log(T2)),0,1)作为两个轨迹T1和T2的相似度
并更新轨
迹奖励
λ为衰减系数。
7.根据权利要求6所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 为确保收敛, 每次更新后衰减系数 λ变为上一 步的0.9倍。
8.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 所述的步骤S5中, 对于智能体Agent1和Agent2, 采用DDQN方法进行策略更新, 则
有:
对 于 智 能 体 A g e n t1,从 经 验 池 B u f f e r1中 随 机 采 样 l 段 轨 迹 序 列
并计算当前Q值 目标y1
j=r1
j+γQ′(s1
j+1,argmaxa′Q(s1
j+1,a,
w),w′), 其中, Q为DDQN算法中的当前网络, w为其网络参数, Q ′为DDQN算法中的目标网络, w ′
为目标网络的网络参数, γ为衰减系数, 然后获取均方差损失函数
通过神经网络的梯度反向更新当前网络Q, 并每隔 q次将Q的网络参数 更新至Q′。
9.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 所述的步骤S6中, 设定时间tlimit设为100。
10.根据权利要求1所述的一种基于双智能体竞争强化学习的机器人路径探索方法, 其
特征在于, 所述的步骤S7中, 训练剧集数设置为5 00。权 利 要 求 书 2/2 页
3
CN 114372520 A
3
专利 一种基于双智能体竞争强化学习的机器人路径探索方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 04:42:11上传分享