(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111484299.9
(22)申请日 2021.12.07
(65)同一申请的已公布的文献号
申请公布号 CN 114299714 A
(43)申请公布日 2022.04.08
(73)专利权人 东南大学
地址 211135 江苏省南京市麒 麟科创园智
识路26号启迪城立 业园04幢
(72)发明人 韩雨 高津达 李玲慧 刘攀
(74)专利代理 机构 南京经纬专利商标代理有限
公司 32200
专利代理师 刘莎
(51)Int.Cl.
G08G 1/01(2006.01)
G06Q 10/04(2012.01)
G06Q 50/30(2012.01)
G06N 20/00(2019.01)(56)对比文件
CN 112885088 A,2021.0 6.01
CN 112289044 A,2021.01.2 9
CN 113674522 A,2021.1 1.19
CN 106157650 A,2016.1 1.23
CN 103700251 A,2014.04.02
干宏程等.快速路网单点入口匝道动态控制
策略仿真评价研究. 《苏州大 学学报(工科版)》
.2011,(第05期),
温凯歌等.基 于分布式强化学习的高速公路
控制模型. 《交通信息与安全》 .201 1,(第03期),
Hirsh Majid等.An i ntegrated ap proach
for dynamic traf fic routi ng and ramp
metering using sliding mode co ntrol.
《Journal of Traf fic and Transportati on
Engineering(English Editi on)》 .2018,(第02
期),
审查员 张渊博
(54)发明名称
一种基于异策略强化学习的多匝道协调控
制方法
(57)摘要
本发明公开了一种基于异策略强化学习的
匝道协调控制方法, 以迭代方式使用离线交通数
据训练强化学习智能体, 而不是与交通模拟器交
互。 在每次训练迭代中, 收集历史交通流数据并
将其输入学习算法以更新控制策略。 在迭代初
期, 当历史交通流数据量较少时, 使用宏观交通
流模型METANET来生成合成交通流数据。 这使强
化学习能够探索到可能导致更好的交通性能的
新动作。 为了保证训练迭代的可行时间, 快速道
路被分为若干单点控制区域, 每个单点控制区域
对应于单点匝道控制 系统, 以保持低维度的状态
和动作空间, 从而可 以充分探索控制动作。 随着
探索更多的控制动作和利用更多的训练数据, 最
终得到匝道 协调控制的最优策略。
权利要求书1页 说明书7页 附图2页
CN 114299714 B
2022.12.27
CN 114299714 B
1.一种基于异策略强化学习的匝道 协调控制方法, 其特 征在于, 该 方法包括以下步骤:
步骤10)根据快速道路几何数据, 建立启发式匝道协调控制HERO算法, 采集应用HERO算
法的快速道路历史交通流数据, 以及多个匝道信号灯中的历史信号数据; 所述历史交通流
数据包括交通流量、 时间占有率、 平均速度和匝道排队长度, 将历史交通流数据整合形成历
史强化学习数据;
步骤20)根据历史 交通流数据, 标定宏观交通 流模型METANET的参数;
步骤30)将每组历史交通流数据作为METANET的初始状态, 扩大强化学习动作空间, 产
生合成强化学习数据, 进而建立包含历史强化学习数据和合成强化学习数据的综合 强化学
习数据集;
步骤40)利用Q表格方法和综合强化学习数据集, 训练强化学习智能体;
步骤50)重复步骤30)和步骤40)迭代训练智能体, 直到智能体访问的状态空间满足精
度要求, 进 而得到最优 控制策略;
其中, 在强化学习智能体状态空间和动作空间不足的情况下, 通过METANET模拟交通状
态, 扩大强化学习动作区间, 对于一个包含[ 本周期状态, 动作, 下一周期状态, 奖励值]的数
据切片, 列举所有可能的动作并将其输入到 METANET中来预测下一时间步的交通动态;
快速道路被分为若干单点控制区域, 每个单点控制区域对应于单点匝道控制系统, 每
个单点控制区域 都包含合流区上下游的快速道路路段; 每个单点控制区域又分为上游路段
U, 合流路段M和下游路段D; 如果单点匝道控制系统中出现超出设定距离的下游瓶颈, 那么
对应单点控制区域还 包括瓶颈下游;
所述控制方法分为上、 下两层:
上层控制的状态为快速道路网络 中每个单点控制区域的平均流量和平均速度, 以及所
有入口匝道的队列长度向量; 动作是一个二元变量向量, 每个二元变量代表一个入口匝道
的激活或不激活, 用1或0表示; 奖励是快速道路 网络的总流出量, 包括所有 出口匝道的流出
量和下游流出量;
下层控制的状态为上游路段U的平均流量和平均速度, 瓶颈处下游检测器的时间占有
率, 入口匝道的排队长度和上一个控制周期 中的红灯时间; 动作为本次控制周期 中红灯时
间; 奖励是 快速道路网络的总流出量, 包括所有出口匝道的流出量和下游流出量。
2.根据权利要求1所述的基于异策略强化学习的匝道协调控制方法, 其特征在于, Q表
格根据以下公式进行 更新:
式中, Q(s,a)为当前状态s采取动作a对应的Q值; Q(s ′,a′)为下一个状态s ′采取动作a ′
对应的Q值; r为当前状态动作下对应的奖励, a ′为状态s′对应的可 行动作, κ(s,a)为学习率。
3.一种基于异策略强化学习的匝道协调控制装置, 包括存储器和 处理器, 所述存储器
存储有计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1或2所
述的基于异策略强化学习的匝道 协调控制方法的步骤。
4.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被
处理器执行时实现权利要求1或2所述的基于异策略强化学习的匝道 协调控制方法的步骤。权 利 要 求 书 1/1 页
2
CN 114299714 B
2一种基于异策略强化学习的多匝道协调控制方 法
技术领域
[0001]本发明公开了一种对快速道路多匝道协调控制策略进行控制优化的异策略强化
学习方法, 属于智能交通 技术领域。
背景技术
[0002]匝道控制是快速道 路上的一种常见的交通管控措施, 不仅在文献中进行了广泛的
研究, 而且在现实生活中也得到了广泛的应用。 匝道控制通过防止通行能力下降和 排队溢
出, 进而减少快速道路交通系统中驾驶员的总行程时间。 而且, 交通系统可以通过改变出行
者的路线选择行为而间接地从匝道控制中受益, 从而在整个网络中获得 理想的交通流量分
布。
[0003]由于匝道排队的存储容量有限, 因此一旦匝道队列长度超过最大允许值, 就必须
释放排队的车辆, 以避免对相邻地面道路交通的干扰, 这可能会造成快速道路拥堵。 因此,
局部匝道控制方法并不总 是有效地改善整个交通网络的总体交通性能。 为此, 匝道协调控
制策略通过利用其他匝道上 的存储空间, 来达到系统最优, 同时这些匝道的交通需求也影
响目标瓶颈的交通流动态。 Papamichail等提出了一种用于匝道协调控制的启发式反馈控
制策略, 称为HERO, 并将其应用于澳大利亚的多个快速道路站点。 另外, 最优控制方法, 例如
模型预测控制方法, 已经广泛研究以用于协调匝道控制。 Han等提出了一种基于宏观基本图
模型的协调匝道控制方法, 并将其与基于不同交通流模型的几种MP C方法进行了比较。 发现
预测模型和过程模型之间的不匹配会显着影响系统性能。
[0004]近年来, 随着人工智能技术的发展, 基于强化学习方法已在道路交通控制 领域引
起了越来越多的关注。 对于文献中大多数基于强化学习的交通控制策略, 强化学习智能体
都是通过与模拟实际交通过程的交通仿 真器进行 交互的方式反 复试验地进 行训练的。 此训
练过程通常需要大量数据, 而这可能需要花费很长的时间才能在现实中。 此外, 由于交通仿
真器与实际交通过程之 间存在固有的不匹配, 因此那些基于强化学习策略的性能很可能会
受限于仿 真器的准确性。 在强化学习等其他应用中, 例如机器人技术和游戏, 则包含智能体
以从已收集的固定数据批次中学习。 但是, 对于实际的交通控制系统, 交通流量是基于预定
的控制策略进行控制的。 因此, 对于有效的训练过程, 从现场获得的交通数据可能不够丰
富。 在有限的交通数据下开发基于强化学习的交通控制策略是一项具有挑战性的工作。
发明内容
[0005]技术问题: 本发明针对基于强化学习的匝道协调控制策略在实践中存在交通仿真
和实际交通环境不匹配, 以及能用于训练强化学习智能体的数据量有限的问题, 提出一种
基于异策略强化学习的匝道协调控制方法, 所提出 的策略显着地减少交通拥堵, 提高交通
效率。
[0006]技术方案: 本发明一种基于异策略强化学习的匝道协调控制方法, 该方法包括以
下步骤:说 明 书 1/7 页
3
CN 114299714 B
3
专利 一种基于异策略强化学习的多匝道协调控制方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:41:33上传分享