专利基于模仿学习与强化学习结合的自动驾驶训练方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111532390.3 (22)申请日 2021.12.15 (71)申请人中国科学院深圳先进技术研究院地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号 (72)发明人黄乐雄　王洋　须成忠　叶可江　 (74)专利代理机构深圳市科进知识产权代理事务所(普通合伙) 44316 代理人刘建伟 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称基于模仿学习与强化学习结合的自动驾驶训练方法及系统 (57)摘要本发明涉及模型学习领域，具体涉及一种基于模仿学习与强化学习结合的自动驾驶训练方法及系统。该方法及系统将采集到的训练数据输入至模仿学习网络进行预训练，将预训练后模仿学习网络的卷积层拷贝给强化学习网络，强化学习网络与环境继续互动学习，获得环境中新的训练数据加入经验回放池，强化学习网络从经验回放池中随机采样数据进行训练，对强化学习网络进行更新。本发明的结合训练方法针对自动驾驶的特点进行了优化，使得它在自动驾驶的仿真环境中性能良好。权利要求书2页说明书8页附图1页 CN 114282433 A 2022.04.05 CN 114282433 A 1.一种基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，包括以下步骤：将采集到的训练数据输入至模仿学习网络进行预训练，将预训练后模仿学习网络的卷积层拷贝给强化学习网络；强化学习网络与环境继续互动学习，获得环境中新的训练数据加入经验回放池，强化学习网络从经验回放池中随机采样数据进行训练，对强化学习网络进行更新。 2.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，所述方法还包括：经验回放池中的数据达到容量上限需要删除时，通过算法计算模型获取这些数据的训练程度，选取训练分数高的数据删除。 3.根据权利要求2所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，在经验回放池中的数据达到容量上限需要删除一部分时，通过算法计算模型获取这些数据的训练程度，选取训练分数高、模型训练更熟悉的数据删除，对于训练分数低、模型仍未完全掌握的经验，会继续留在经验回放池中，供模型后续采样训练。 4.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，在仿真环境Carla采集训练数据。 5.根据权利要求4所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，在Car la仿真器中，预先设置waypoint路标点格式，每一条路线都由若干路标点组成，每个路标点标明了当前的坐标信息、转向角，获取到路标点列表及每个路标点的信息；在Carla仿真器中设置有路径规划函数，通过向路径规划函数提供出发点与目标点，路径规划函数自动计算出最优的行驶路线并返回该路线的路标点列表；根据输入的偏差值，按照比例、积分、微分的函数关系进行运算，通过当前路标点的的坐标与下一个路标点的坐标间的差值、当前速度信息进行积分计算，得到输出的速度信息；通过当前的转向值与下一个路标点的转向值的差值，计算转向值的增减幅度。 6.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，预选择的训练网络中输入为160*80的图片，输出的激活函数为Sigmoid函数和Tanh激活函数， Sigmoid激活函数输出在(0,1)之间， Tanh激活函数取值范围在[ ‑1,1]之间；其中 Sigmoid函数用于输出油门值，控制在(0,1)之间； Tanh激活函数用于输出转向值，控制在[ ‑ 1,1]之间；将收集的数据集取出一部分用作模仿学习的训练，将这些训练数据按照3:1比例用作训练集和测试集，训练集是供网络进行训练使用，网络会智能调整自己的参数，去拟合数据的输入与输出，每段时间的训练后，网络会在测试集中验证自己的训练结果并调整改进。 7.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，强化学习网络与环境继续互动学习，环境会传递观测给强化学习网络，强化学习网络会根据观测输出动作，之后环境根据动作更新到新的观测，并给予强化学习网络奖励值；其中观测、动作、新观测、奖励四个动作为一组数据，会被存入经验回放池，每隔一段时间，强化学习网络会从经验回放池中采集部分数据，通过迭代更新自己的网络参数。 8.根据权利要求7所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，奖励函数分为三部分：平稳行驶的速度奖励、碰撞惩罚、跨越人行道惩罚；平稳行驶的权　利　要　求　书 1/2 页 2 CN 114282433 A 2速度奖励r(v)定义为: r(v)＝1‑‖v‑vdes‖ vdes为期望的行驶速度，越接近期望速度，模型能得到的奖励就越大，最大为1；碰撞惩罚和跨越人行道惩罚都是 ‑50。 9.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，根据强化学习网络对于数据的掌握程度去淘汰更新经验回放池；强化学习的每一轮更新，会从经验回放池中采样一部分数据，该数据会用来计算目标函数，其中目标函数为： L(ω)＝E[(r+γ*maxaQ(s`,a`,ω) ‑Q(s,a,ω) )2] 损失使当前的Q值更加接近目标Q值，对于每一次计算的损失，使用时把它作为标签与训练的这一组数据匹配，记录到经验回放池中，当经验回放池达到储存上限时，遍历经验回放池中的所有数据，选取损失最低的10％数据进行舍弃。 10.一种基于模仿学习与强化学习结合的自动驾驶训练系统，其特征在于，包括：模仿学习网络，用于将采集到的训练数据输入至模仿学习网络进行预训练，将预训练后模仿学习网络的卷积层拷贝给强化学习网络；强化学习网络，用于与环境继续互动学习，获得环境中新的训练数据加入经验回放池，强化学习网络从经验回放池中随机采样数据进行训练，对强化学习网络进行更新。权　利　要　求　书 2/2 页 3 CN 114282433 A 3

专利 基于模仿学习与强化学习结合的自动驾驶训练方法及系统

专利基于模仿学习与强化学习结合的自动驾驶训练方法及系统