全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111532390.3 (22)申请日 2021.12.15 (71)申请人 中国科学院深圳先进技 术研究院 地址 518055 广东省深圳市南 山区深圳大 学城学苑大道1068号 (72)发明人 黄乐雄 王洋 须成忠 叶可江  (74)专利代理 机构 深圳市科进知识产权代理事 务所(普通 合伙) 44316 代理人 刘建伟 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 基于模仿学习与强化学习结合的自动驾驶 训练方法及系统 (57)摘要 本发明涉及模 型学习领域, 具体涉及一种基 于模仿学习与强化学习结合的自动驾驶训练方 法及系统。 该方法及系统将采集到的训练数据输 入至模仿 学习网络进行预训练, 将预训练后模仿 学习网络的卷积层拷贝 给强化学习网络, 强化学 习网络与环 境继续互动学习, 获得环 境中新的训 练数据加入 经验回放池, 强化学习网络从经验回 放池中随机采样数据进行训练, 对强化学习网络 进行更新。 本发 明的结合训练方法针对自动驾驶 的特点进行了优化, 使 得它在自动驾驶的仿真环 境中性能良好。 权利要求书2页 说明书8页 附图1页 CN 114282433 A 2022.04.05 CN 114282433 A 1.一种基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征在于, 包括以下步 骤: 将采集到的训练数据输入至模仿学习网络进行预训练, 将预训练后模仿学习网络的卷 积层拷贝给强化学习网络; 强化学习 网络与环境继续互动学习, 获得环境中新的训练数据加入经验回放池, 强化 学习网络从经验回放池中随机采样数据进行训练, 对强化学习网络进行 更新。 2.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征 在于, 所述方法还 包括: 经验回放池中的数据达到容量上限需要删除时, 通过算法计算模型获取这些数据的训 练程度, 选取训练分数高的数据删除。 3.根据权利要求2所述的基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征 在于, 在经验回放池中的数据达到容量上限需要删除一部分时, 通过算法计算模型获取这 些数据的训练程度, 选取训练分数高、 模型训练更熟悉的数据删除, 对于训练分数低、 模型 仍未完全掌握的经验, 会继续留在经验回放池中, 供模型后续采样训练。 4.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征 在于, 在仿真环境Carla采集训练数据。 5.根据权利要求4所述的基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征 在于, 在Car la仿真器中, 预先设置waypoint路标点格式, 每一条路线都由若干 路标点组成, 每个路标点标明了当前的坐标信息、 转向角, 获取到路标点列表及每 个路标点的信息; 在Carla仿真器中设置有路径规划函数, 通过向路径规划函数提供出发点与目标点, 路 径规划函数自动计算出最优的行驶路线并返回该路线的路标点列表; 根据输入的偏差值, 按照比例、 积分、 微分的函数关系进行运算, 通过当前路标点的的 坐标与下一个路标点的坐标间的差值、 当前速度信息进 行积分计算, 得到输出的速度信息; 通过当前的转向值与下一个路标点的转向值的差值, 计算 转向值的增减幅度。 6.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征 在于, 预选择的训练网络中输入为160*80的图片, 输出的激活函数为Sigmoid函数和Tanh激 活函数, Sigmoid激活函数输出在(0,1)之间, Tanh激活函数取值范围在[ ‑1,1]之间; 其中 Sigmoid函数用于输出油门值, 控制在(0,1)之间; Tanh激活函数用于输出转向值, 控制在[ ‑ 1,1]之间; 将收集的数据集取出一部分用作模仿学习的训练, 将这些训练数据按照3:1比例用作 训练集和测试集, 训练集是供网络进 行训练使用, 网络会智能调整自己的参数, 去拟合数据 的输入与输出, 每段时间的训练后, 网络会在测试集中验证自己的训练结果并调整改进。 7.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征 在于, 强化学习网络与 环境继续互动学习, 环境会传递观测给强化学习网络, 强化学习网络 会根据观测输出动作, 之后环 境根据动作更新到新的观测, 并给予强化学习网络奖励值; 其 中观测、 动作、 新观测、 奖励四个动作为一组数据, 会被存入经验回放池, 每隔一段时间, 强 化学习网络会从经验回放池中采集部分数据, 通过迭代更新自己的网络参数。 8.根据权利要求7所述的基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征 在于, 奖励函数分为三部 分: 平稳行驶的速度奖励、 碰撞 惩罚、 跨越人行道惩罚; 平稳行驶的权 利 要 求 书 1/2 页 2 CN 114282433 A 2速度奖励r(v)定义 为: r(v)=1‑‖v‑vdes‖ vdes为期望的行驶速度, 越接近期望速度, 模型能得到的奖励就越大, 最大为1; 碰撞惩 罚和跨越人 行道惩罚都是 ‑50。 9.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法, 其特征 在于, 根据强化学习网络对于数据的掌握程度去淘汰更新经验回放池; 强化学习的每一轮更新, 会从经验回放池中采样一部分数据, 该数据会用来计算目标 函数, 其中目标函数为: L(ω)=E[(r+γ*maxaQ(s`,a`,ω) ‑Q(s,a,ω) )2] 损失使当前的Q值更加接近目标Q值, 对于每一次计算的损失, 使用时把它作为标签与 训练的这一组数据匹配, 记录到经验回放池中, 当经验回放池达到储存上限时, 遍历经验回 放池中的所有数据, 选取损失最低的10%数据进行舍弃。 10.一种基于模仿学习与强化学习结合的自动驾驶训练系统, 其特 征在于, 包括: 模仿学习 网络, 用于将采集到的训练数据输入至模仿学习 网络进行预训练, 将预训练 后模仿学习网络的卷积层拷贝给强化学习网络; 强化学习网络, 用于与环境继续互动学习, 获得环境中新的训练数据加入经验回放池, 强化学习网络从经验回放池中随机采样数据进行训练, 对强化学习网络进行 更新。权 利 要 求 书 2/2 页 3 CN 114282433 A 3

.PDF文档 专利 基于模仿学习与强化学习结合的自动驾驶训练方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于模仿学习与强化学习结合的自动驾驶训练方法及系统 第 1 页 专利 基于模仿学习与强化学习结合的自动驾驶训练方法及系统 第 2 页 专利 基于模仿学习与强化学习结合的自动驾驶训练方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:29:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。