专利一种基于深度逆向强化学习的车辆路径链重构方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211152406.2 (22)申请日 2022.09.21 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人王福建　程慧玲　马东方　王殿海　蔡正义　张泽天　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师傅朝栋　张法高 (51)Int.Cl. G08G 1/01(2006.01) G08G 1/017(2006.01) G08G 1/0968(2006.01) G06V 20/62(2022.01)G06F 16/215(2019.01) G06N 20/00(2019.01) (54)发明名称一种基于深度逆向强化学习的车辆路径链重构方法 (57)摘要本发明提供一种基于深度逆向强化学习的车辆路径链重构方法，涉及智慧交通领域。首先对车牌识别数据进行预处理，并提取出路段行程时间，利用基于辅助信息的张量补全算法对路段行程时间补全，从而分离出完整路径链和缺失路径链。然后利用深度逆向强化学习，对路网中完整出行路径链进行挖掘，以非线性回报函数的形式拟合出潜藏的路径选择特性，指导智能体自主重构缺失路径链。本发明克服了现有算法决策依据主观性大的缺陷，在少量的示例数据下就能达到稳定性强、准确度高的重构效果，为交通需求结构分析和交通拥堵疏导等重点交通问题提供数据支撑。权利要求书4页说明书9页附图4页 CN 115512543 A 2022.12.23 CN 115512543 A 1.一种基于深度逆向强化学习的车辆路径链重构方法，其特征在于，具体如下：步骤1：对采集到的车牌识别原始数据进行预处理，以清洗异常数据，得到车牌识别数据；步骤2：对所述车牌识别数据按车辆经行时间排列为经行卡口链，计算相邻经行卡口间的时间差；划分时间窗，对各路段各时间窗内的时间差进行统计并作为样本量；若样本量满足阈值，则剔除异常后将样本均值作为该时间窗内的路段行程时间，反之，则视为路段行程时间缺失；步骤3：对于步骤2中缺失的路段行程时间，采用基于辅助信息的张量补全算法进行路段行程时间补全；步骤4：对于步骤2中原本完整的路段行程时间或经步骤3补全后的路段行程时间，对经行卡口链进行拓扑检查和行程时间阈值检查，分离出缺失路径链集合与完整路径链集合；步骤5：将城市路网上的路径链重构问题建模为回报函数未知的马尔可夫决策过程，基于最大熵逆向强化学习，对所述完整路径链集合进行挖掘，以求解最佳回报函数；步骤6：基于所述最佳回报函数，采用Q学习算法求解路径重构的最优策略，指导智能体进行所述缺失路径链集合重构，得到最终的路径重构方案。 2.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法，其特征在于，所述步骤1中，对于车牌识别原始数据中，由于车牌不明或设备漏检导致的无效数据，以及由于外界干扰或设备故障造成的错误数据，均采用直接剔除的方式进行车牌识别数据预处理；对于车牌识别原始数据中，由于设备故障造成多条过车记录所有字段完全一致的重复数据，采用直接保留最后一条记录的方式进行车牌识别数据预处理；对于车牌识别原始数据中，由于多检错拍或广角错拍造成车牌或卡口名称一致、记录时间稍有差别的重复数据，将重复记录按时序排列，计算连续两条记录之间的过车时间差；若过车时间差小于重复检测时间阈值，则被视为重复记录，采用保留后一条记录的方式进行车牌识别数据预处理，反之，两条记录均予以保留。 3.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法，其特征在于，所述步骤2具体如下：根据所述车牌识别数据，将车辆一天的记录按经行时间排列为经行卡口链，当所述经行卡口链中相邻节点(j,j+1)拓扑相连，则计算其节点间的时间差；以5min为一个时间窗，统计各个路段各时间窗内的路段行程时间；若时间窗内样本量≤n，则样本不具代表性，视为路段行程时间缺失；若样本数量＞n，则利用箱型图法进行异常值分析，异常值剔除后，将时间窗内的样本均值作为该时间窗内的路段行程时间。 4.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法，其特征在于，所述步骤3具体如下：构建三个维度的相似矩阵作为辅助信息并加入张量补全模型，通过交替更新因子矩阵法对该优化问题进行求解，获得路段行程时间的最优补全张量；所述三个维度的相似矩阵包括：路段相似矩阵M1：基于路段属性矩阵，利用余弦相似度计算路段相似矩阵；所述路段属性包括道路拓扑属性和路段特征属性，道路拓扑属性包括路段入度、出度、邻接度以及路段权　利　要　求　书 1/4 页 2 CN 115512543 A 2特征属性，路段特征属性包括路段长度、路段车道数、路段等级和路段兴趣点数；时间窗相似矩阵M2：基于车速属性，利用余弦相似度计算时间窗相似矩阵；天数相似矩阵M3：基于车速和天气属性，利用余弦相似度计算天数相似矩阵；所述余弦相似度的计算公式如下：式中， cos_pn,n+1为对象n与n+1的余弦相似度， bn,j为对象n的第j个属性值， bn+1,j为对象n +1的第j个属性值；加入辅助信息的所述张量补全模型公式如下：式中， T为原始张量；为补全张量，基于tucker分解，其中G为 tucker分解后的核心张量， U， V， W为分解后的因子矩阵； ×n为张量与矩阵的模态积； || ·| |2 F为F‑范数； L(·)为正则化项； M1， M2， M3为相似矩阵。 5.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法，其特征在于，所述步骤4具体如下：根据路段行程时间ti， o， k，构建路段行程时间的阈值其中， ti， o， k代表i路段第k天第o时间窗的行程时间， δ为调整系数；对于任意一条经行卡口链，按时间顺序对其每一组相邻节点(j， j+1)进行遍历；若每组节点均拓扑相连，且节点时间差满足(ti， min， ti， max)，则将经行卡口链放入完整路径链集合中；若在某组中时间差不满足 (ti， min， ti， max)，则从(j， j+1)处分离， j节点前的经行卡口链放入完整路径链集合，从j+1节点处检验下一组相邻节点；若相邻节点拓扑不相连，以路段长度得出两个节点间的最短路径，计算节点间最短路径的时间总阈值(tsp， min， tsp， max)，通过累加最短路径中每个路段的 (ti， min， ti， max)即可；若节点时间差满足(tsp， min， tsp， max)，则将(j， j+1)放入缺失路径链集合，继续检验j+1节点后的卡口链；若节点时间差不满足(tsp， min， tsp， max)，则在(j， j+1)处分离， j 节点前的卡口链放入完整路径链集合，从j+1节点继续向后检验。 6.根据权利要求1所述的一种基于深度逆向强化学习的车辆路径链重构方法，其特征在于，所述步骤5中马尔可夫决策过程的构建方法具体如下： a)令环境E为路网； b)令状态空间S为智能体可以到达的所有路段，每一个路段状态通过多个状态特征表示； c)令动作空间A包含左转、右转、直行和掉头； d)令状态转移T为智能体在执行动作a后从当前路段转向下一路段； e)令专家示例D′为从完整路径链集合中抽取部分作为深度逆向强化学习的专家示例； f)令策略π 为状态到动作的映射学习，即智能体如何选择动作的决策过程； g)回报函数R用于评价智能体策略的优劣，深度逆向强化学习的目标是使拟合出的回报函数与专家示例的回报函数相近。权　利　要　求　书 2/4 页 3 CN 115512543 A 3

专利 一种基于深度逆向强化学习的车辆路径链重构方法

专利一种基于深度逆向强化学习的车辆路径链重构方法