全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111545808.4 (22)申请日 2021.12.16 (71)申请人 安徽大学 地址 230039 安徽省合肥市蜀山区肥西路3 号 (72)发明人 方笑晗 毛中天 张馨雨 宋程  樊渊 陶骏 潘天红 程松松  (74)专利代理 机构 合肥市浩智运专利代理事务 所(普通合伙) 34124 代理人 闫客 (51)Int.Cl. G06F 30/27(2020.01) G06F 119/02(2020.01) (54)发明名称 城市轨道交通列车节能优化方法、 装置、 设 备及存储介质 (57)摘要 本发明公开了一种城市轨道交通列车节能 优化方法、 装置、 设备及存储介质, 方法包 括S10、 获取当前时刻所述列车运行环境下的状态信息 和奖励值所述奖励值采用奖励函数计算得到, 奖 励函数包括所述DDPG模型中的第一奖励函数和 所述列车行车过程中牵引力所做功与行车准点 结合的第二奖励函数; S20、 基于列车运行环境下 状态信息和奖励值, 选择运行动作下发至列车以 使所述列车下一时刻按照运行动作行车; S30、 将 下一时刻确定为当前时刻, 重复执行步骤S10~ S20。 本发明中列车每执行一次运行动作, 环境都 会立刻反馈一个状态信息和奖励值, 指导之后的 操纵序列, 以进行行车策略的更新与优化, 最终 获得一个收敛的理想的列车行车策略, 达到节约 能耗的目的。 权利要求书2页 说明书9页 附图2页 CN 114282436 A 2022.04.05 CN 114282436 A 1.一种城市轨道交通列车节能优化方法, 其特征在于, 采用行车能耗DDPG模型进行行 车策略选择, 所述方法包括如下步骤: S10、 获取当前时刻所述列车运行环境下的状态信 息和奖励值, 所述奖励值采用奖励函 数计算得到, 所述奖励函数包括所述DDPG模 型中的第一奖励函数和所述列车行车过程中牵 引力所做 功与行车准点结合的第二奖励函数; S20、 基于所述列车运行环境下状态信息和奖励值, 选择运行动作下发至所述列车以使 所述列车 下一时刻按照所述 运行动作行 车; S30、 将下一时刻确定为当前时刻, 重复执 行步骤S10~S20 。 2.如权利要求1所述的城市轨道 交通列车节能优化方法, 其特征在于, 所述奖励函数的 公式表示 为: Rβ(s)=ωR(s)+(1 ‑ω)J(s) 其中, J(s)为所述DDPG模型中的奖励函数, R(s)为根据所述列车行车过程中牵引力所 做功与行车准点结合的奖励函数, ω为占比, 取值为0 ‑1, R(s)=α1( ∫Fvdt)+α2(∑t‑T0), α1+ α2=1, ∫Fvdt为所述牵引力所做功, F是所述牵引力, v是所述列车行车速度, ∑t ‑T0为所述列 车行车时间偏差, t是实际行 车时间, T0是列车运行区段运行时刻表中的时间。 3.如权利要求1所述的城市轨道 交通列车节能优化方法, 其特征在于, 在基于所述列 车 运行环境下状态信息和奖励值, 选择运行动作下发至所述列车时, 还 包括: 引入随机噪声, 将所述行 车策略转换为随机过程, 随机采样得到所述 运行动作。 4.如权利要求1所述的城市轨道 交通列车节能优化方法, 其特征在于, 在所述列车接收 到所述运行动作时, 还 包括: 根据行车区段的限速图判断所述 运行动作是否时危险动作; 若是, 则发送动作请求指令以重新选择 所述运行动作; 若否, 则执 行所述运行动作。 5.如权利要求1所述的城市轨道交通列车节能优化方法, 其特征在于, 所述行车能耗 DDPG模型包括critic网络和actor网络, 所述critic网络包括Online策略网络和Target策 略网络, 所述actor网络包括Online  Q网络和Target  Q网络, 所述获取当前时刻所述列车运 行环境下的状态信息和奖励值时, 还 包括: 所述critic网络将所述状态信息和所述奖励值变换为状态转换数据, 并标记状态转换 数据的优先级, 其中, 所述优先级 按照所述奖励值的大小从高到低标记; 将标记优先级后的所述状态转换 数据存储至重放内存缓冲区; 按照所述优先级 的顺序, 从所述重放内存缓冲区内抽取数据, 以用于对所述critic网 络和所述actor网络进行训练。 6.如权利要求5所述的城市轨道交通列车节能优化方法, 其特征在于, 所述方法还包 括: 采用随机梯度下降法更新所述On line Q网络和所述On line策略网络的参数; 采用soft update算法更新所述Target网络和所述Target策略网络的参数。 7.一种城市轨道交通列车节能优化装置, 其特征在于, 采用行车能耗DDPG模型进行行 车策略选择, 所述装置包括: 获取模块, 用于获取当前时刻所述列车运行环境下的状态信息和奖励值, 所述奖励值权 利 要 求 书 1/2 页 2 CN 114282436 A 2采用奖励函数计算得到, 所述奖励函数包括所述DDPG模 型中的第一奖励函数和所述列车行 车过程中牵引力所做 功与行车准点结合的第二奖励函数; 决策模块, 用于基于所述列车运行环境下状态信息和奖励值, 选择运行动作下发至所 述列车以使所述列车 下一时刻按照所述 运行动作行 车; 交互反馈模块, 用于将下一时刻确定为当前时刻, 执 行所述获取模块动作。 8.如权利要求7所述的城市轨道 交通列车节能优化装置, 其特征在于, 所述奖励函数的 公式表示 为: Rβ(s)=ωR(s)+(1 ‑ω)J(s) 其中, J(s)为所述DDPG模型中的奖励函数, R(s)为根据所述列车行车过程中牵引力所 做功与行车准点结合的奖励函数, ω为占比, 取值为0 ‑1, R(s)=α1( ∫Fvdt)+α2(∑t‑T0), α1+ α2=1, ∫Fvdt为所述牵引力所做功, F是所述牵引力, v是所述列车行车速度, ∑t ‑T0为所述列 车行车时间偏差, t是实际行 车时间, T0是列车运行区段运行时刻表中的时间。 9.一种城市轨道交通列车节能优化设备, 其特征在于, 所述设备包括存储器、 处理器; 其中, 所述处理器通过读取所述存储器中存储的可执行程序 代码来运行与所述可执行程序 代码对应的程序, 以用于实现如权利要求1 ‑6中任一项所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时, 实现如权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114282436 A 3

.PDF文档 专利 城市轨道交通列车节能优化方法、装置、设备及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 城市轨道交通列车节能优化方法、装置、设备及存储介质 第 1 页 专利 城市轨道交通列车节能优化方法、装置、设备及存储介质 第 2 页 专利 城市轨道交通列车节能优化方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:28:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。