专利城市轨道交通列车节能优化方法、装置、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111545808.4 (22)申请日 2021.12.16 (71)申请人安徽大学地址 230039 安徽省合肥市蜀山区肥西路3 号 (72)发明人方笑晗　毛中天　张馨雨　宋程　樊渊　陶骏　潘天红　程松松　 (74)专利代理机构合肥市浩智运专利代理事务所(普通合伙) 34124 代理人闫客 (51)Int.Cl. G06F 30/27(2020.01) G06F 119/02(2020.01) (54)发明名称城市轨道交通列车节能优化方法、装置、设备及存储介质 (57)摘要本发明公开了一种城市轨道交通列车节能优化方法、装置、设备及存储介质，方法包括S10、获取当前时刻所述列车运行环境下的状态信息和奖励值所述奖励值采用奖励函数计算得到，奖励函数包括所述DDPG模型中的第一奖励函数和所述列车行车过程中牵引力所做功与行车准点结合的第二奖励函数； S20、基于列车运行环境下状态信息和奖励值，选择运行动作下发至列车以使所述列车下一时刻按照运行动作行车； S30、将下一时刻确定为当前时刻，重复执行步骤S10～ S20。本发明中列车每执行一次运行动作，环境都会立刻反馈一个状态信息和奖励值，指导之后的操纵序列，以进行行车策略的更新与优化，最终获得一个收敛的理想的列车行车策略，达到节约能耗的目的。权利要求书2页说明书9页附图2页 CN 114282436 A 2022.04.05 CN 114282436 A 1.一种城市轨道交通列车节能优化方法，其特征在于，采用行车能耗DDPG模型进行行车策略选择，所述方法包括如下步骤： S10、获取当前时刻所述列车运行环境下的状态信息和奖励值，所述奖励值采用奖励函数计算得到，所述奖励函数包括所述DDPG模型中的第一奖励函数和所述列车行车过程中牵引力所做功与行车准点结合的第二奖励函数； S20、基于所述列车运行环境下状态信息和奖励值，选择运行动作下发至所述列车以使所述列车下一时刻按照所述运行动作行车； S30、将下一时刻确定为当前时刻，重复执行步骤S10～S20 。 2.如权利要求1所述的城市轨道交通列车节能优化方法，其特征在于，所述奖励函数的公式表示为： Rβ(s)＝ωR(s)+(1 ‑ω)J(s) 其中， J(s)为所述DDPG模型中的奖励函数， R(s)为根据所述列车行车过程中牵引力所做功与行车准点结合的奖励函数， ω为占比，取值为0 ‑1， R(s)＝α1( ∫Fvdt)+α2(∑t‑T0)， α1+ α2＝1， ∫Fvdt为所述牵引力所做功， F是所述牵引力， v是所述列车行车速度， ∑t ‑T0为所述列车行车时间偏差， t是实际行车时间， T0是列车运行区段运行时刻表中的时间。 3.如权利要求1所述的城市轨道交通列车节能优化方法，其特征在于，在基于所述列车运行环境下状态信息和奖励值，选择运行动作下发至所述列车时，还包括：引入随机噪声，将所述行车策略转换为随机过程，随机采样得到所述运行动作。 4.如权利要求1所述的城市轨道交通列车节能优化方法，其特征在于，在所述列车接收到所述运行动作时，还包括：根据行车区段的限速图判断所述运行动作是否时危险动作；若是，则发送动作请求指令以重新选择所述运行动作；若否，则执行所述运行动作。 5.如权利要求1所述的城市轨道交通列车节能优化方法，其特征在于，所述行车能耗 DDPG模型包括critic网络和actor网络，所述critic网络包括Online策略网络和Target策略网络，所述actor网络包括Online Q网络和Target Q网络，所述获取当前时刻所述列车运行环境下的状态信息和奖励值时，还包括：所述critic网络将所述状态信息和所述奖励值变换为状态转换数据，并标记状态转换数据的优先级，其中，所述优先级按照所述奖励值的大小从高到低标记；将标记优先级后的所述状态转换数据存储至重放内存缓冲区；按照所述优先级的顺序，从所述重放内存缓冲区内抽取数据，以用于对所述critic网络和所述actor网络进行训练。 6.如权利要求5所述的城市轨道交通列车节能优化方法，其特征在于，所述方法还包括：采用随机梯度下降法更新所述On line Q网络和所述On line策略网络的参数；采用soft update算法更新所述Target网络和所述Target策略网络的参数。 7.一种城市轨道交通列车节能优化装置，其特征在于，采用行车能耗DDPG模型进行行车策略选择，所述装置包括：获取模块，用于获取当前时刻所述列车运行环境下的状态信息和奖励值，所述奖励值权　利　要　求　书 1/2 页 2 CN 114282436 A 2采用奖励函数计算得到，所述奖励函数包括所述DDPG模型中的第一奖励函数和所述列车行车过程中牵引力所做功与行车准点结合的第二奖励函数；决策模块，用于基于所述列车运行环境下状态信息和奖励值，选择运行动作下发至所述列车以使所述列车下一时刻按照所述运行动作行车；交互反馈模块，用于将下一时刻确定为当前时刻，执行所述获取模块动作。 8.如权利要求7所述的城市轨道交通列车节能优化装置，其特征在于，所述奖励函数的公式表示为： Rβ(s)＝ωR(s)+(1 ‑ω)J(s) 其中， J(s)为所述DDPG模型中的奖励函数， R(s)为根据所述列车行车过程中牵引力所做功与行车准点结合的奖励函数， ω为占比，取值为0 ‑1， R(s)＝α1( ∫Fvdt)+α2(∑t‑T0)， α1+ α2＝1， ∫Fvdt为所述牵引力所做功， F是所述牵引力， v是所述列车行车速度， ∑t ‑T0为所述列车行车时间偏差， t是实际行车时间， T0是列车运行区段运行时刻表中的时间。 9.一种城市轨道交通列车节能优化设备，其特征在于，所述设备包括存储器、处理器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1 ‑6中任一项所述的方法。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1 ‑6中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114282436 A 3

专利 城市轨道交通列车节能优化方法、装置、设备及存储介质

专利城市轨道交通列车节能优化方法、装置、设备及存储介质