(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111541829.9
(22)申请日 2021.12.16
(71)申请人 国网宁夏电力有限公司
地址 750010 宁夏回族自治区银川市长城
东路288号
申请人 北京科东电力控制系统有限责任公
司
(72)发明人 蒙飞 张越 王运 刘刚 孙阳
常鹏 余建明 单连飞 刘艳
张连超
(74)专利代理 机构 武汉开元知识产权代理有限
公司 42104
代理人 李满
(51)Int.Cl.
G06Q 10/06(2012.01)G06Q 50/06(2012.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
基于生成对抗模仿学习的电力系统动态经
济调度系统及方法
(57)摘要
本发明公开了一种基于生成对抗模仿学习
的电力系统动态经济调度系统及方法, 首先, 生
成器网络模块观测电力系统状态, 采用强化学习
近端策略优化算法生成调度策略; 其次, 完美调
度模块生成完美调度策略; 再次, 判别器网络模
块将所述生成器网络模块生成的调度策略与完
美调度策略进行对比, 得出反馈信息来训练生成
器网络参数与判别器网络参数; 最后, 生成器网
络模块基于判别器网络模块训练后的生成器网
络参数, 结合电力系统状态获得最终的调度策
略。 本发明结合生成对抗网络, 避免了深度强化
学习中人为定义奖励函数引入的主观 性, 实现策
略到策略的端到端的学习, 改善了算法的收敛性
问题, 降低建模难度, 增强了算法应对高维复杂
问题时的能力。
权利要求书3页 说明书5页 附图2页
CN 114240144 A
2022.03.25
CN 114240144 A
1.一种基于生成对抗模仿学习的电力系统动态经济调度系统, 其特征在于: 它包括生
成器网络模块(1)、 完美调度模块(2)和判别器网络模块(3); 所述生成器网络模块(1)用于
观测电力系统状态, 通过生 成器网络, 并采用强化学习近端 策略优化算法生 成调度策略, 获
得机组确 定出力; 所述完美调度模块(2)用于生成完美调度策 略; 所述判别器网络模块(3)
采用判别器网络将所述生成器网络模块(1)生成的调度策略与所述完美调度模块(2)生成
的完美调度策略进 行对比, 得出反馈信息, 用于训练所述生成器网络模块(1)的生 成器网络
参数与所述判别器网络模块(3)的判别器网络参数。
2.基于权利要求1所述的基于生成对抗模仿学习的电力系统动态经济调度系统, 其特
征在于: 它还 包括生成器输出优化模块(4)和网络模型离线训练模块(5);
所述生成器输出优化模块(4)通过对机组出力正态分布随机采样生成优化调度控制策
略, 避免生成器的学习陷入局部最优点; 所述网络模型离线训练模块(5)采用所述生 成器网
络模块(1)根据离线训练场景生成调 度方案, 并将所述调度方案执行于电力系统环境中, 电
力系统环境转移至新状态; 循环一个决策周期后, 将每个决策步的状态与动作收集至生成
器记忆库中, 生 成生成器记忆库状态动作序列; 针对相同的调 度场景, 依据所述完美调 度模
块(2)获得完美调度方案, 将系统状态与完美调 度方案收集至专家记忆库中, 生成专家记忆
库状态动作序列; 将所述生成器记忆库状态动作序列与所述专家记忆库状态动作序列输入
至所述判别器网络模块(3)中, 所述判别器网络模块(3)的判别器网络输出判别 结果, 所述
生成器网络模块(1)中的生成器网络根据所述判别结果更新所述生成器网络参数, 生成更
优的调度方案 。
3.基于权利要求1所述的基于生成对抗模仿学习的电力系统动态经济调度系统, 其特
征在于:
所述生成器网络模块(1)中的生成器网络包括8层网络结构, 依次为生成器网络输入
层、 生成器网络归一化层、 生成器网络第一隐藏层、 生成器网络第一激活函数层、 生成器网
络第二隐藏层、 生成器网络第二激活函数层、 生成器网络输出层、 生 成器网络第三激活函数
层;
所述生成器网络输入层的输入数据为电力系统观测状态st; 所述归一化层用于对所述
输入层的输入数据中不同的输入特征进行偏移和缩放调整; 所述生成器网络输出层的输出
数据为n组输出层神经元, 所述输出层神经元包含均值和标准差, 通过所述n组输出层神经
元得到n组机组确定出力。
4.基于权利要求3所述的基于生成对抗模仿学习的电力系统动态经济调度系统, 其特
征在于:
所述电力系统观测状态st包括t+1时刻的负荷预测值、 t+1时刻的新能源出力预测值、 t
时刻火电机组实际出力与t时刻新能源实际出力组成, 所述 新能源包括风电和光伏;
所述输入变量st表示如下:
st={t,P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t}
其中, P′load,t+1表示t+1时刻的负荷预测值, P ′wind,t+1表示t+1时刻的风电出力预测值,
P′pv,t+1表示t+1时刻的光伏出力预测值, Pg,t表示t时刻火电机组实际出力; Pwind,t表示t时刻
的风电实际出力值, Ppv,t为t时刻的光伏实际出力值;
所述生成器网络 输出层的输出变量 为火电机组出力值atg:权 利 要 求 书 1/3 页
2
CN 114240144 A
2atg={PG1,…,PGk,…,PGK}
其中, PGk为第k个火电机组出力值; PGK为第K个火电机组出力 值; K为系统中的火电机组
总数量。
5.基于权利要求2所述的基于生成对抗模仿学习的电力系统动态经济调度系统, 其特
征在于:
所述生成器输出优化模块(4)生成优化调度控制策略的具体实现方式为:
所述生成器网络模块(1)输出的火电机组出力PGk的均值为
火电机组出力PGk的标
准差为
所述均值与标准差形成如正态分布的火电机组出力的概率分布, 其概率密度
函数如下:
所述生成器网络模块(1)输出的火电机组出力的均值和标准差要符合概率密度函数,
若不符合概率密度函数则所述生成器网络模块(1)会迭代训练得到新的火电机组出力, 直
至新的火电机组出力的均值和标准差满足正态分布为止 。
6.基于权利要求1所述的基于生成对抗模仿学习的电力系统动态经济调度系统, 其特
征在于: 所述完 美调度模块(2)生成完 美调度策略的具体方法为:
所述完美调度模块(2)在每日的实时市场结束后, 利用该日各时刻的已知信息, 在系统
运行状态与运行条件给定的情况下, 以最小化系统发电成本为 目标, 利用考虑系统安全运
行约束的最优机组组合和最优潮流SCOPF计算该日24个时刻的完美经济调度方案, 生成完
美调度策略; 所述已知信息包括实际用电负荷、 实际新能源出力与实际拓扑 结构。
7.基于权利要求1所述的基于生成对抗模仿学习的电力系统动态经济调度系统, 其特
征在于:
所述判别器网络模块(3)中的判别器网络包括7层网络结构, 依次为判别器网络输入
层、 判别器网络归一化层、 判别器网络第一隐藏层、 判别器网络第一激活函数层、 判别器网
络第二隐藏层、 判别器网络第二激活函数层、 判别器网络 输出层;
所述判别器 网络输入层的输入数据包括状态动作对(st,atg)和状态动作对(st,ate), 所
述状态动作对(st,atg)为所述生 成器网络输出层输出的atg和所述电力系统观测状态st组成
的状态动作对, 所述状态动 作对(st,ate)为所述完美调度模块(2)生成的调度策略ate和所述
电力系统观测状态st组成的状态动作对; 所述判别器网络输出层的输出数据为所述完美调
度方案的概 率值;
所述判别器网络在所述判别器网络输入层后加入所述判别器网络归一化层, 将状态动
作对进行归一化; 在所述判别器网络输出层前加入所述判别器网络第二激活函数层, 将输
出映射至区间[0,1], 作为输入策略为完 美调度策略的对应概 率值;
所述判别器网络Dω的目标函数为:
其中, (st,atg)为所述生成器网络输出层输出的atg和所述电力系统观测状态st组成的
状态动作对, (st,ate)为所述完美调度模块(2)生成的调度策略ate和所述电力系统观测状态
st组成的状态动作对, τG为所述生成器网络形成的生成器策略; τE为所述完美调度模块(2)权 利 要 求 书 2/3 页
3
CN 114240144 A
3
专利 基于生成对抗模仿学习的电力系统动态经济调度系统及方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:08:49上传分享