全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210916196.3 (22)申请日 2022.08.01 (65)同一申请的已公布的文献号 申请公布号 CN 115001002 A (43)申请公布日 2022.09.02 (73)专利权人 广东电网有限责任公司肇庆供电 局 地址 526000 广东省肇庆市端州区7 7区信 安路88号 (72)发明人 陈显超 张杰明 高宜凡 陈展尘  王辉 梁妍陟 仲卫 程林晖  钟榜 褚裕谦  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 任文生 (51)Int.Cl. H02J 3/32(2006.01)G06Q 10/04(2012.01) G06N 3/04(2006.01) G06Q 10/06(2012.01) G06Q 50/06(2012.01) (56)对比文件 CN 110365057 A,2019.10.2 2 CN 109347149 A,2019.02.15 CN 114630299 A,2022.06.14 CN 113242469 A,2021.08.10 US 2022164657 A1,202 2.05.26 CN 113572157 A,2021.10.2 9 CN 110488861 A,2019.1 1.22 吕晓茜.应对新能源预测偏差不确定性的电 力系统动态经济调度研究. 《中国优秀硕士学位 论文全文数据库- 工程科技 II辑》 .2022,29-30. 审查员 校瑞珍 (54)发明名称 一种求解储能参与削峰填谷的优化调度方 法和系统 (57)摘要 本发明提供了一种求解储能参与削峰填谷 的优化调度方法和系统, 包括设置参数化的深度 Q值网络, 利用负荷历史数据以及对应时刻储能 的功率出率对参数化的深度Q值网络进行训练, 训练过程中利用信赖域优化模型对控制策略的 更新次数做出限制, 从而快速准确的获取最优策 略, 以便在当前条件下实现储能的优化调度控 制。 本发明利用信赖域 ‑强化学习, 在连续控制 中, 对策略更新的大小做出限制, 每次更新的时 候不大幅度地改变 分布的形态, 使收益满足调递 增收敛性, 能够在线修正优化结果, 并且考虑到 充放电约束, 达 到最优的削峰填谷控制功能。 权利要求书6页 说明书21页 附图3页 CN 115001002 B 2022.12.30 CN 115001002 B 1.一种求 解储能参与削峰填谷的优化调度方法, 其特 征在于, 包括如下步骤: 设置参数化深度Q值网络, 所述参数化深度Q值网络用于利用自身的网络参数将输入的 控制策略参数化并输出若干个参数化控制策略, 所述参数化深度Q值网络具体包括: 储能策 略神经网络和储能状态价 值神经网络; 所 述 储 能 策 略 神 经 网 络 是 根 据 近 似 状 态 ‑动 作 储 能 Q ‑V a l u e 网 络 设置而成的, 对应的网络参数为 ; 所 述 储 能 状 态 价 值 神 经 网 络 是 根 据 近 似 状 态 储 能 Q ‑V a l u e 网 络 设置而成的, 对应的网络参数为 ; 其中, 表示状态, 表示动作, 表示时刻, 表示储能控制策略, 表 示状态 下, 当采取动作 时对应的价值, 表示状态 下, 对所有可能的动作 而言的期望价 值, 表示回报, 表示折扣因子; 获取负荷历史有功值和预测值以及对应时刻储能功率出力, 以初始时刻的储能功率出 力、 负荷有功值和预测值为初始状态进行输入, 以任意一个初始储能控制策略对储能进行 控制, 以最小化负荷曲线的方差作为 目标对所述参数化深度Q值网络进行迭代训练并更新 所述网络参数, 利用信赖域优化模型对所述网络参数的更新次数进行控制, 满足条件   时, 结束训练, 其中 表示流形上的信赖域 约束, 表示利用网络参数 参数化的控制策略 , 表示约束限值, 和 表示网 络参数 的更新次数, 所述信赖域优化模型 具体为: 式中, 表示更新前的控制策略, 表示按网络参数 更新后的控制策略, 表示更新后的控制策略相比较更新前的控制策略的期望折扣回报, 表示更新后的控制策略与更新前的控制策略之间的信赖域约束 条件; 对所述参数化深度Q值网络进 行迭代训练并更新所述网络参数, 利用信赖域优化模型权 利 要 求 书 1/6 页 2 CN 115001002 B 2对所述网络参数的更新次数进行控制, 满足条件 时, 结束训 练, 具体包括: 以所述初始状态为起始状态, 以控制策略 对储能进行 次控制, 得到策 略状态‑动作轨迹 , 其中 为所述储能策略神经网络的输出结果, 为储能策略网络的参数, 为第 轮策略状态 ‑动作轨迹, 为第 个轨迹且 ,  为 时刻 的第 个轨迹状态和动作向量; 对于 中每一步 , 均记录其对应的回报并且基于所述回报, 利用所述储能策略神经 网络计算对应步的动作 ‑状态价值函数 以及利用所述储能状态价值神 经网络计算对应步的状态价值函数 , 其中 是所述储能状态价值神经网 络的参数; 对于 中每一步 , 基于所述动作 ‑状态价值函数和所述状态价值函数计算优势 函数 , ; 基于所述优势函数估计 策略梯度 , , 其中, 表示负荷和储能的总 控制轮数; 表示所述 储能策略神经网络在 处的梯度; 基于所述策略梯度计算所述储能策略神经网络对 的二阶偏导 , , 其中 为辅助变量, 无实际物理意 义; 令迭代下标 , 依次更新所述储能策略神经网络的网权 利 要 求 书 2/6 页 3 CN 115001002 B 3

.PDF文档 专利 一种求解储能参与削峰填谷的优化调度方法和系统

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种求解储能参与削峰填谷的优化调度方法和系统 第 1 页 专利 一种求解储能参与削峰填谷的优化调度方法和系统 第 2 页 专利 一种求解储能参与削峰填谷的优化调度方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:37:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。