专利一种自动驾驶汽车强化学习方法、系统、装置及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111492394.3 (22)申请日 2021.12.08 (71)申请人武汉理工大学地址 430063 湖北省武汉市珞狮路12 2号 (72)发明人裴晓飞　吕柯萱　陈词　刘一平　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 代理人黎扬鹏 (51)Int.Cl. G06F 30/27(2020.01) (54)发明名称一种自动驾驶汽车强化学习方法、系统、装置及存储介质 (57)摘要本发明公开了一种自动驾驶汽车强化学习方法、系统、装置及存储介质。自动驾驶汽车强化学习方法包括：根据真实交通场景数据构建仿真交通场景；根据仿真交通场景生成第一行为；根据仿真交通场景生成第二行为；设置偏差；根据第一行为、第二行为和偏差，采用数字孪生技术训练自动驾驶汽车的强化学习模型。本发明通过构建符合真实交通场景数据的仿真交通场景，并根据仿真交通场景设置第一行为和第二行为，使得交通场景中各车辆的行为考虑到了真实交通场景中的驾驶习惯和随机事件；通过设置偏差，并采用数字孪生技术进行训练测试，避免了真实环境中自车执行器控制延迟带来的性能影响，进一步提高了仿真交通场景的真实性和强化学习模型的可靠性。权利要求书2页说明书11页附图2页 CN 114357860 A 2022.04.15 CN 114357860 A 1.一种自动驾驶汽车强化学习方法，其特征在于，包括以下步骤：根据真实交通场景数据构建仿真交通场景，所述仿真交通场景包括不同类型车辆的速度和运动轨迹；根据所述仿真交通场景生成第一行为，所述第一行为为旁车的合理驾驶行为；根据所述仿真交通场景生成第二行为，所述第二行为为旁车的随机行为；设置偏差，所述偏差包括自车获取旁车状态时的噪声值；根据所述第一行为、所述第二行为和所述偏差，采用数字孪生技术训练自动驾驶汽车的强化学习模型。 2.根据权利要求1所述的一种自动驾驶汽车强化学习方法，其特征在于，所述根据真实交通场景数据构建仿真交通场景，包括：获取所述真实交通场景数据；根据所述真实交通场景数据生成不同类型车辆的速度和运动轨迹；对所述运动轨迹进行平滑处理，完成所述仿真交通场景的构建。 3.根据权利要求1所述的一种自动驾驶汽车强化学习方法，其特征在于，所述根据所述仿真交通场景生成第一行为，包括：根据所述仿真交通场景，构建旁车的驾驶员模型，所述驾驶员模型表现出所述第一行为。 4.根据权利要求3所述的一种自动驾驶汽车强化学习方法，其特征在于，所述根据所述仿真交通场景，构建旁车的驾驶员模型，包括：构建第一控制模型，所述第一控制模型用于控制横向是否变道；构建第二控制模型，所述第二控制模型用于控制纵向加速度；根据所述第一控制模型和所述第二控制模型，构建所述驾驶员模型。 5.根据权利要求1所述的一种自动驾驶汽车强化学习方法，其特征在于，所述第二行为包括：在直行方向上输出最大减速度，执行紧急制动驾驶行为；执行向左变道驾驶行为；执行向右变道驾驶行为。 6.根据权利要求1所述的一种自动驾驶汽车强化学习方法，其特征在于，所述设置偏差，包括：设置自车获取旁车状态时的噪声；根据自车与旁车的距离，生成噪声倍数；根据所述噪声和所述噪声倍数，得到所述偏差。 7.根据权利要求1所述的一种自动驾驶汽车强化学习方法，其特征在于，还包括以下步骤：获取误差数据，所述误差数据为所述强化学习模型测试过程中误差的误差数据；根据所述误差数据，对所述仿真交通场景、所述第一行为、所述第二行为和所述偏差进行数据补充并训练所述强化学习模型。 8.一种自动驾驶汽车强化学习系统，其特征在于，包括：仿真交通场景构建模块，用于根据真实交通场景数据构建仿真交通场景；权　利　要　求　书 1/2 页 2 CN 114357860 A 2第一行为生成模块，用于根据所述交通场景生成第一行为；第二行为生成模块，用于根据所述交通场景生成第二行为；偏差设置模块，用于设置偏差；模型训练模块，用于根据所述第一行为、所述第二行为和所述偏差，采用数字孪生技术训练自动驾驶汽车的强化学习模型。 9.一种自动驾驶汽车强化学习装置，其特征在于，包括：第一阶段装置，包括至少一台服务器或PC端，用于仿真交通场景的构建和强化学习模型的训练，实现如权利要求1 ‑7中任一项所述的一种自动驾驶汽车强化学习方法；第二阶段装置，包括至少两台服务器或PC端，分别用于仿真交通场景的构建和强化学习模型的训练；包括一辆带有可部署所述强化学习模型控制器的自动驾驶汽车，用于执行所述强化学习模型的输出动作；包括至少一条通讯链路，用于实现所述强化学习模型的输出动作到自动驾驶汽车的传输；第三阶段装置，包括至少一台PC端，用于保存训练完成的所述强化学习模型，并将所述强化学习模型部署到自动驾驶汽车；包括一辆带有可部署所述强化学习模型控制器的自动驾驶汽车，用于执行所述强化学习模型的输出动作；包括至少一条通讯链路，用于实现所述强化学习模型的输出动作到自动驾驶汽车的传输。 10.一种存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求 1‑7中任一项所述的一种自动驾驶汽车强化学习方法。权　利　要　求　书 2/2 页 3 CN 114357860 A 3

专利 一种自动驾驶汽车强化学习方法、系统、装置及存储介质

专利一种自动驾驶汽车强化学习方法、系统、装置及存储介质