全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211152406.2 (22)申请日 2022.09.21 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 王福建 程慧玲 马东方 王殿海  蔡正义 张泽天  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 傅朝栋 张法高 (51)Int.Cl. G08G 1/01(2006.01) G08G 1/017(2006.01) G08G 1/0968(2006.01) G06V 20/62(2022.01)G06F 16/215(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于深度逆向强化学习的车辆路径链 重构方法 (57)摘要 本发明提供一种基于深度逆向强化学习的 车辆路径链重构方法, 涉及智慧交通领域。 首先 对车牌识别数据进行预处理, 并提取出路段行程 时间, 利用基于辅助信息的张量补全算法对路段 行程时间补全, 从而分离出完整路径链和缺失路 径链。 然后利用深度逆向强化学习, 对路网中完 整出行路径链进行挖掘, 以非线性回报函数的形 式拟合出潜藏的路径选择特性, 指导智能体自主 重构缺失路径链。 本发明克服了现有算法决策依 据主观性大的缺陷, 在少量的示例数据下就能达 到稳定性强、 准确度高的重构效果, 为交通需求 结构分析和交通拥堵疏导等重点交通问题提供 数据支撑 。 权利要求书4页 说明书9页 附图4页 CN 115512543 A 2022.12.23 CN 115512543 A 1.一种基于深度逆向强化学习的车辆路径 链重构方法, 其特 征在于, 具体如下: 步骤1: 对采集到的车牌识别原始数据进行预处理, 以清洗异常数据, 得到车牌识别数 据; 步骤2: 对所述车牌识别数据按车辆经行时间排列为经行卡口链, 计算相邻经行卡口间 的时间差; 划分时间窗, 对各路段各时间窗内的时间差进行 统计并作为样本量; 若样本量满 足阈值, 则剔除异常后将样 本均值作为该时间窗内的路段行程时间, 反之, 则视为路段行程 时间缺失; 步骤3: 对于步骤2中缺失的路段行程时间, 采用基于辅助信息的张量补全算法进行路 段行程时间补全; 步骤4: 对于步骤2中原本完整的路段行程时间或经步骤3补全后的路段行程时间, 对经 行卡口链进行拓扑检查和行程时间阈值检查, 分离出缺失路径 链集合与完整路径 链集合; 步骤5: 将城市路网上的路径链重构问题建模为 回报函数未知的马尔可夫决策过程, 基 于最大熵逆向强化学习, 对所述完整路径 链集合进行挖掘, 以求 解最佳回报函数; 步骤6: 基于所述最佳回报函数, 采用Q学习算法求解路径重构的最优策略, 指导智能体 进行所述缺失路径 链集合重构, 得到最终的路径重构方案 。 2.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法, 其特征 在于, 所述步骤1中, 对于车牌识别原始数据中, 由于车牌不明或设备漏检导致的无效数据, 以及由于外界干扰或设备故障造成的错误数据, 均采用直接剔除的方式进 行车牌识别数据 预处理; 对于车牌识别原始数据中, 由于设备故障造成多条过车记录所有字段完全一致的重复 数据, 采用直接保留最后一条记录的方式进行 车牌识别数据预处 理; 对于车牌识别原始数据中, 由于多检错拍或广角错拍造成车牌或卡口名称一致、 记录 时间稍有差别的重复数据, 将重复记录按时序排列, 计算连续两条记录之 间的过车时间差; 若过车时间差小于重复检测时间阈值, 则被视为重复记录, 采用保留后一条记录的方式进 行车牌识别数据预处 理, 反之, 两条记录均予以保留。 3.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法, 其特征 在于, 所述 步骤2具体如下: 根据所述车牌识别数据, 将车辆一天的记录按经行时间排列为经行卡口链, 当所述经 行卡口链 中相邻节点(j,j+1)拓扑相连, 则计算其节点间的时间差; 以5min为一个时间窗, 统计各个路段各时间窗内的路段行程时间; 若时间窗内样本量≤n, 则样本不具代表性, 视 为路段行程时间缺 失; 若样本数量>n, 则利用箱型图法进 行异常值分析, 异常值剔除后, 将 时间窗内的样本均值作为该时间窗内的路段 行程时间。 4.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法, 其特征 在于, 所述 步骤3具体如下: 构建三个维度的相似矩阵作为辅助信 息并加入 张量补全模型, 通过交替更新因子矩阵 法对该优化问题进行求 解, 获得路段 行程时间的最优补全张量; 所述三个维度的相似矩阵包括: 路段相似矩阵M1: 基于路段属性矩阵, 利用余弦相似度计算路段相似矩阵; 所述路段属 性包括道路拓扑属性和路段特征属性, 道路拓扑属性包括路段入度、 出度、 邻接度以及路段权 利 要 求 书 1/4 页 2 CN 115512543 A 2特征属性, 路段 特征属性包括路段长度、 路段 车道数、 路段等级和路段兴趣点数; 时间窗相似矩阵M2: 基于车速属性, 利用余弦相似度计算时间窗相似矩阵; 天数相似矩阵M3: 基于车速和天气属性, 利用余弦相似度计算天数相似矩阵; 所述余弦相似度的计算公式如下: 式中, cos_pn,n+1为对象n与n+1的余弦相似度, bn,j为对象n的第j个属性值, bn+1,j为对象n +1的第j个属性 值; 加入辅助信息的所述张量补全 模型公式如下: 式中, T为原始张量; 为补全张量, 基于tucker分解, 其中G为 tucker分解后的核心张量, U, V, W为分解后的因子矩阵; ×n为张量与矩阵的模态积; || ·| |2 F为F‑范数; L(·)为正则化项; M1, M2, M3为相似矩阵。 5.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法, 其特征 在于, 所述 步骤4具体如下: 根据路段行程时间ti, o, k, 构建路段行程时间的阈值 其 中, ti, o, k代表i路段第k天第o时间窗的行程时间, δ为调整系数; 对于任意一条经行卡口链, 按时间顺序对其每一组相邻节 点(j, j+1)进 行遍历; 若每组节 点均拓扑相连, 且节 点时间差 满足(ti, min, ti, max), 则将经行卡口链放入完整路径链集合中; 若在某组中时间差不满足 (ti, min, ti, max), 则从(j, j+1)处分离, j节点前的经行卡口链放入完整路径链集合, 从j+1节 点处检验下一组相邻节点; 若相邻节点拓扑不相连, 以路段长度得出两个节点间的最短路 径, 计算节点间最短路径的时间总阈值(tsp, min, tsp, max), 通过累加最短路径中每个路段的 (ti, min, ti, max)即可; 若节点时间差满足(tsp, min, tsp, max), 则将(j, j+1)放入缺失路径链集合, 继续检验j+1节点后的卡口链; 若节点时间差不满足(tsp, min, tsp, max), 则在(j, j+1)处分离, j 节点前的卡口链放入完整路径 链集合, 从j+1节点继续向后检验。 6.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法, 其特征 在于, 所述 步骤5中马尔可 夫决策过程的构建方法具体如下: a)令环境E为路网; b)令状态空间S为智能体可以到达的所有路段, 每一个路段状态通过多个状态特征表 示; c)令动作空间A包 含左转、 右转、 直行和掉头; d)令状态转移T为智能体在执 行动作a后从当前路段转向下一路段; e)令专家示例D′为从完整路径 链集合中抽取部分作为深度逆向强化学习的专 家示例; f)令策略π 为状态到动作的映射学习, 即智能体如何选择动作的决策 过程; g)回报函数R用于评价智能体策略的优劣, 深度逆向强化学习的目标是使拟合出的回 报函数与专 家示例的回报函数相近 。权 利 要 求 书 2/4 页 3 CN 115512543 A 3

.PDF文档 专利 一种基于深度逆向强化学习的车辆路径链重构方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度逆向强化学习的车辆路径链重构方法 第 1 页 专利 一种基于深度逆向强化学习的车辆路径链重构方法 第 2 页 专利 一种基于深度逆向强化学习的车辆路径链重构方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。