专利一种基于异策略强化学习的多匝道协调控制方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111484299.9 (22)申请日 2021.12.07 (65)同一申请的已公布的文献号申请公布号 CN 114299714 A (43)申请公布日 2022.04.08 (73)专利权人东南大学地址 211135 江苏省南京市麒麟科创园智识路26号启迪城立业园04幢 (72)发明人韩雨　高津达　李玲慧　刘攀　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师刘莎 (51)Int.Cl. G08G 1/01(2006.01) G06Q 10/04(2012.01) G06Q 50/30(2012.01) G06N 20/00(2019.01)(56)对比文件 CN 112885088 A,2021.0 6.01 CN 112289044 A,2021.01.2 9 CN 113674522 A,2021.1 1.19 CN 106157650 A,2016.1 1.23 CN 103700251 A,2014.04.02 干宏程等.快速路网单点入口匝道动态控制策略仿真评价研究. 《苏州大学学报(工科版)》 .2011,(第05期), 温凯歌等.基于分布式强化学习的高速公路控制模型. 《交通信息与安全》 .201 1,(第03期), Hirsh Majid等.An i ntegrated ap proach for dynamic traf fic routi ng and ramp metering using sliding mode co ntrol. 《Journal of Traf fic and Transportati on Engineering(English Editi on)》 .2018,(第02 期), 审查员张渊博 (54)发明名称一种基于异策略强化学习的多匝道协调控制方法 (57)摘要本发明公开了一种基于异策略强化学习的匝道协调控制方法，以迭代方式使用离线交通数据训练强化学习智能体，而不是与交通模拟器交互。在每次训练迭代中，收集历史交通流数据并将其输入学习算法以更新控制策略。在迭代初期，当历史交通流数据量较少时，使用宏观交通流模型METANET来生成合成交通流数据。这使强化学习能够探索到可能导致更好的交通性能的新动作。为了保证训练迭代的可行时间，快速道路被分为若干单点控制区域，每个单点控制区域对应于单点匝道控制系统，以保持低维度的状态和动作空间，从而可以充分探索控制动作。随着探索更多的控制动作和利用更多的训练数据，最终得到匝道协调控制的最优策略。权利要求书1页说明书7页附图2页 CN 114299714 B 2022.12.27 CN 114299714 B 1.一种基于异策略强化学习的匝道协调控制方法，其特征在于，该方法包括以下步骤：步骤10)根据快速道路几何数据，建立启发式匝道协调控制HERO算法，采集应用HERO算法的快速道路历史交通流数据，以及多个匝道信号灯中的历史信号数据；所述历史交通流数据包括交通流量、时间占有率、平均速度和匝道排队长度，将历史交通流数据整合形成历史强化学习数据；步骤20)根据历史交通流数据，标定宏观交通流模型METANET的参数；步骤30)将每组历史交通流数据作为METANET的初始状态，扩大强化学习动作空间，产生合成强化学习数据，进而建立包含历史强化学习数据和合成强化学习数据的综合强化学习数据集；步骤40)利用Q表格方法和综合强化学习数据集，训练强化学习智能体；步骤50)重复步骤30)和步骤40)迭代训练智能体，直到智能体访问的状态空间满足精度要求，进而得到最优控制策略；其中，在强化学习智能体状态空间和动作空间不足的情况下，通过METANET模拟交通状态，扩大强化学习动作区间，对于一个包含[ 本周期状态，动作，下一周期状态，奖励值]的数据切片，列举所有可能的动作并将其输入到 METANET中来预测下一时间步的交通动态；快速道路被分为若干单点控制区域，每个单点控制区域对应于单点匝道控制系统，每个单点控制区域都包含合流区上下游的快速道路路段；每个单点控制区域又分为上游路段 U，合流路段M和下游路段D；如果单点匝道控制系统中出现超出设定距离的下游瓶颈，那么对应单点控制区域还包括瓶颈下游；所述控制方法分为上、下两层：上层控制的状态为快速道路网络中每个单点控制区域的平均流量和平均速度，以及所有入口匝道的队列长度向量；动作是一个二元变量向量，每个二元变量代表一个入口匝道的激活或不激活，用1或0表示；奖励是快速道路网络的总流出量，包括所有出口匝道的流出量和下游流出量；下层控制的状态为上游路段U的平均流量和平均速度，瓶颈处下游检测器的时间占有率，入口匝道的排队长度和上一个控制周期中的红灯时间；动作为本次控制周期中红灯时间；奖励是快速道路网络的总流出量，包括所有出口匝道的流出量和下游流出量。 2.根据权利要求1所述的基于异策略强化学习的匝道协调控制方法，其特征在于， Q表格根据以下公式进行更新：式中， Q(s,a)为当前状态s采取动作a对应的Q值； Q(s ′,a′)为下一个状态s ′采取动作a ′ 对应的Q值； r为当前状态动作下对应的奖励， a ′为状态s′对应的可行动作， κ(s,a)为学习率。 3.一种基于异策略强化学习的匝道协调控制装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1或2所述的基于异策略强化学习的匝道协调控制方法的步骤。 4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的基于异策略强化学习的匝道协调控制方法的步骤。权　利　要　求　书 1/1 页 2 CN 114299714 B 2一种基于异策略强化学习的多匝道协调控制方法技术领域 [0001]本发明公开了一种对快速道路多匝道协调控制策略进行控制优化的异策略强化学习方法，属于智能交通技术领域。背景技术 [0002]匝道控制是快速道路上的一种常见的交通管控措施，不仅在文献中进行了广泛的研究，而且在现实生活中也得到了广泛的应用。匝道控制通过防止通行能力下降和排队溢出，进而减少快速道路交通系统中驾驶员的总行程时间。而且，交通系统可以通过改变出行者的路线选择行为而间接地从匝道控制中受益，从而在整个网络中获得理想的交通流量分布。 [0003]由于匝道排队的存储容量有限，因此一旦匝道队列长度超过最大允许值，就必须释放排队的车辆，以避免对相邻地面道路交通的干扰，这可能会造成快速道路拥堵。因此，局部匝道控制方法并不总是有效地改善整个交通网络的总体交通性能。为此，匝道协调控制策略通过利用其他匝道上的存储空间，来达到系统最优，同时这些匝道的交通需求也影响目标瓶颈的交通流动态。 Papamichail等提出了一种用于匝道协调控制的启发式反馈控制策略，称为HERO，并将其应用于澳大利亚的多个快速道路站点。另外，最优控制方法，例如模型预测控制方法，已经广泛研究以用于协调匝道控制。 Han等提出了一种基于宏观基本图模型的协调匝道控制方法，并将其与基于不同交通流模型的几种MP C方法进行了比较。发现预测模型和过程模型之间的不匹配会显着影响系统性能。 [0004]近年来，随着人工智能技术的发展，基于强化学习方法已在道路交通控制领域引起了越来越多的关注。对于文献中大多数基于强化学习的交通控制策略，强化学习智能体都是通过与模拟实际交通过程的交通仿真器进行交互的方式反复试验地进行训练的。此训练过程通常需要大量数据，而这可能需要花费很长的时间才能在现实中。此外，由于交通仿真器与实际交通过程之间存在固有的不匹配，因此那些基于强化学习策略的性能很可能会受限于仿真器的准确性。在强化学习等其他应用中，例如机器人技术和游戏，则包含智能体以从已收集的固定数据批次中学习。但是，对于实际的交通控制系统，交通流量是基于预定的控制策略进行控制的。因此，对于有效的训练过程，从现场获得的交通数据可能不够丰富。在有限的交通数据下开发基于强化学习的交通控制策略是一项具有挑战性的工作。发明内容 [0005]技术问题：本发明针对基于强化学习的匝道协调控制策略在实践中存在交通仿真和实际交通环境不匹配，以及能用于训练强化学习智能体的数据量有限的问题，提出一种基于异策略强化学习的匝道协调控制方法，所提出的策略显着地减少交通拥堵，提高交通效率。 [0006]技术方案：本发明一种基于异策略强化学习的匝道协调控制方法，该方法包括以下步骤：说　明　书 1/7 页 3 CN 114299714 B 3

专利 一种基于异策略强化学习的多匝道协调控制方法

专利一种基于异策略强化学习的多匝道协调控制方法