专利一种求解储能参与削峰填谷的优化调度方法和系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210916196.3 (22)申请日 2022.08.01 (65)同一申请的已公布的文献号申请公布号 CN 115001002 A (43)申请公布日 2022.09.02 (73)专利权人广东电网有限责任公司肇庆供电局地址 526000 广东省肇庆市端州区7 7区信安路88号 (72)发明人陈显超　张杰明　高宜凡　陈展尘　王辉　梁妍陟　仲卫　程林晖　钟榜　褚裕谦　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师任文生 (51)Int.Cl. H02J 3/32(2006.01)G06Q 10/04(2012.01) G06N 3/04(2006.01) G06Q 10/06(2012.01) G06Q 50/06(2012.01) (56)对比文件 CN 110365057 A,2019.10.2 2 CN 109347149 A,2019.02.15 CN 114630299 A,2022.06.14 CN 113242469 A,2021.08.10 US 2022164657 A1,202 2.05.26 CN 113572157 A,2021.10.2 9 CN 110488861 A,2019.1 1.22 吕晓茜.应对新能源预测偏差不确定性的电力系统动态经济调度研究. 《中国优秀硕士学位论文全文数据库- 工程科技 II辑》 .2022,29-30. 审查员校瑞珍 (54)发明名称一种求解储能参与削峰填谷的优化调度方法和系统 (57)摘要本发明提供了一种求解储能参与削峰填谷的优化调度方法和系统，包括设置参数化的深度 Q值网络，利用负荷历史数据以及对应时刻储能的功率出率对参数化的深度Q值网络进行训练，训练过程中利用信赖域优化模型对控制策略的更新次数做出限制，从而快速准确的获取最优策略，以便在当前条件下实现储能的优化调度控制。本发明利用信赖域 ‑强化学习，在连续控制中，对策略更新的大小做出限制，每次更新的时候不大幅度地改变分布的形态，使收益满足调递增收敛性，能够在线修正优化结果，并且考虑到充放电约束，达到最优的削峰填谷控制功能。权利要求书6页说明书21页附图3页 CN 115001002 B 2022.12.30 CN 115001002 B 1.一种求解储能参与削峰填谷的优化调度方法，其特征在于，包括如下步骤：设置参数化深度Q值网络，所述参数化深度Q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略，所述参数化深度Q值网络具体包括：储能策略神经网络和储能状态价值神经网络；所述储能策略神经网络是根据近似状态 ‑动作储能 Q ‑V a l u e 网络设置而成的，对应的网络参数为；所述储能状态价值神经网络是根据近似状态储能 Q ‑V a l u e 网络设置而成的，对应的网络参数为；其中，表示状态，表示动作，表示时刻，表示储能控制策略，表示状态下，当采取动作时对应的价值，表示状态下，对所有可能的动作而言的期望价值，表示回报，表示折扣因子；获取负荷历史有功值和预测值以及对应时刻储能功率出力，以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入，以任意一个初始储能控制策略对储能进行控制，以最小化负荷曲线的方差作为目标对所述参数化深度Q值网络进行迭代训练并更新所述网络参数，利用信赖域优化模型对所述网络参数的更新次数进行控制，满足条件时，结束训练，其中表示流形上的信赖域约束，表示利用网络参数参数化的控制策略，表示约束限值，和表示网络参数的更新次数，所述信赖域优化模型具体为：式中，表示更新前的控制策略，表示按网络参数更新后的控制策略，表示更新后的控制策略相比较更新前的控制策略的期望折扣回报，表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件；对所述参数化深度Q值网络进行迭代训练并更新所述网络参数，利用信赖域优化模型权　利　要　求　书 1/6 页 2 CN 115001002 B 2对所述网络参数的更新次数进行控制，满足条件时，结束训练，具体包括：以所述初始状态为起始状态，以控制策略对储能进行次控制，得到策略状态‑动作轨迹，其中为所述储能策略神经网络的输出结果，为储能策略网络的参数，为第轮策略状态 ‑动作轨迹，为第个轨迹且，为时刻的第个轨迹状态和动作向量；对于中每一步，均记录其对应的回报并且基于所述回报，利用所述储能策略神经网络计算对应步的动作 ‑状态价值函数以及利用所述储能状态价值神经网络计算对应步的状态价值函数，其中是所述储能状态价值神经网络的参数；对于中每一步，基于所述动作 ‑状态价值函数和所述状态价值函数计算优势函数，；基于所述优势函数估计策略梯度，，其中，表示负荷和储能的总控制轮数；表示所述储能策略神经网络在处的梯度；基于所述策略梯度计算所述储能策略神经网络对的二阶偏导，，其中为辅助变量，无实际物理意义；令迭代下标，依次更新所述储能策略神经网络的网权　利　要　求　书 2/6 页 3 CN 115001002 B 3

专利 一种求解储能参与削峰填谷的优化调度方法和系统

专利一种求解储能参与削峰填谷的优化调度方法和系统