专利基于生成对抗模仿学习的电力系统动态经济调度系统及方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111541829.9 (22)申请日 2021.12.16 (71)申请人国网宁夏电力有限公司地址 750010 宁夏回族自治区银川市长城东路288号申请人北京科东电力控制系统有限责任公司 (72)发明人蒙飞　张越　王运　刘刚　孙阳　常鹏　余建明　单连飞　刘艳　张连超　 (74)专利代理机构武汉开元知识产权代理有限公司 42104 代理人李满 (51)Int.Cl. G06Q 10/06(2012.01)G06Q 50/06(2012.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称基于生成对抗模仿学习的电力系统动态经济调度系统及方法 (57)摘要本发明公开了一种基于生成对抗模仿学习的电力系统动态经济调度系统及方法，首先，生成器网络模块观测电力系统状态，采用强化学习近端策略优化算法生成调度策略；其次，完美调度模块生成完美调度策略；再次，判别器网络模块将所述生成器网络模块生成的调度策略与完美调度策略进行对比，得出反馈信息来训练生成器网络参数与判别器网络参数；最后，生成器网络模块基于判别器网络模块训练后的生成器网络参数，结合电力系统状态获得最终的调度策略。本发明结合生成对抗网络，避免了深度强化学习中人为定义奖励函数引入的主观性，实现策略到策略的端到端的学习，改善了算法的收敛性问题，降低建模难度，增强了算法应对高维复杂问题时的能力。权利要求书3页说明书5页附图2页 CN 114240144 A 2022.03.25 CN 114240144 A 1.一种基于生成对抗模仿学习的电力系统动态经济调度系统，其特征在于：它包括生成器网络模块(1)、完美调度模块(2)和判别器网络模块(3)；所述生成器网络模块(1)用于观测电力系统状态，通过生成器网络，并采用强化学习近端策略优化算法生成调度策略，获得机组确定出力；所述完美调度模块(2)用于生成完美调度策略；所述判别器网络模块(3) 采用判别器网络将所述生成器网络模块(1)生成的调度策略与所述完美调度模块(2)生成的完美调度策略进行对比，得出反馈信息，用于训练所述生成器网络模块(1)的生成器网络参数与所述判别器网络模块(3)的判别器网络参数。 2.基于权利要求1所述的基于生成对抗模仿学习的电力系统动态经济调度系统，其特征在于：它还包括生成器输出优化模块(4)和网络模型离线训练模块(5)；所述生成器输出优化模块(4)通过对机组出力正态分布随机采样生成优化调度控制策略，避免生成器的学习陷入局部最优点；所述网络模型离线训练模块(5)采用所述生成器网络模块(1)根据离线训练场景生成调度方案，并将所述调度方案执行于电力系统环境中，电力系统环境转移至新状态；循环一个决策周期后，将每个决策步的状态与动作收集至生成器记忆库中，生成生成器记忆库状态动作序列；针对相同的调度场景，依据所述完美调度模块(2)获得完美调度方案，将系统状态与完美调度方案收集至专家记忆库中，生成专家记忆库状态动作序列；将所述生成器记忆库状态动作序列与所述专家记忆库状态动作序列输入至所述判别器网络模块(3)中，所述判别器网络模块(3)的判别器网络输出判别结果，所述生成器网络模块(1)中的生成器网络根据所述判别结果更新所述生成器网络参数，生成更优的调度方案。 3.基于权利要求1所述的基于生成对抗模仿学习的电力系统动态经济调度系统，其特征在于：所述生成器网络模块(1)中的生成器网络包括8层网络结构，依次为生成器网络输入层、生成器网络归一化层、生成器网络第一隐藏层、生成器网络第一激活函数层、生成器网络第二隐藏层、生成器网络第二激活函数层、生成器网络输出层、生成器网络第三激活函数层；所述生成器网络输入层的输入数据为电力系统观测状态st；所述归一化层用于对所述输入层的输入数据中不同的输入特征进行偏移和缩放调整；所述生成器网络输出层的输出数据为n组输出层神经元，所述输出层神经元包含均值和标准差，通过所述n组输出层神经元得到n组机组确定出力。 4.基于权利要求3所述的基于生成对抗模仿学习的电力系统动态经济调度系统，其特征在于：所述电力系统观测状态st包括t+1时刻的负荷预测值、 t+1时刻的新能源出力预测值、 t 时刻火电机组实际出力与t时刻新能源实际出力组成，所述新能源包括风电和光伏；所述输入变量st表示如下： st＝{t,P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t} 其中， P′load,t+1表示t+1时刻的负荷预测值， P ′wind,t+1表示t+1时刻的风电出力预测值， P′pv,t+1表示t+1时刻的光伏出力预测值， Pg,t表示t时刻火电机组实际出力； Pwind,t表示t时刻的风电实际出力值， Ppv,t为t时刻的光伏实际出力值；所述生成器网络输出层的输出变量为火电机组出力值atg：权　利　要　求　书 1/3 页 2 CN 114240144 A 2atg＝{PG1,…,PGk,…,PGK} 其中， PGk为第k个火电机组出力值； PGK为第K个火电机组出力值； K为系统中的火电机组总数量。 5.基于权利要求2所述的基于生成对抗模仿学习的电力系统动态经济调度系统，其特征在于：所述生成器输出优化模块(4)生成优化调度控制策略的具体实现方式为：所述生成器网络模块(1)输出的火电机组出力PGk的均值为火电机组出力PGk的标准差为所述均值与标准差形成如正态分布的火电机组出力的概率分布，其概率密度函数如下：所述生成器网络模块(1)输出的火电机组出力的均值和标准差要符合概率密度函数，若不符合概率密度函数则所述生成器网络模块(1)会迭代训练得到新的火电机组出力，直至新的火电机组出力的均值和标准差满足正态分布为止。 6.基于权利要求1所述的基于生成对抗模仿学习的电力系统动态经济调度系统，其特征在于：所述完美调度模块(2)生成完美调度策略的具体方法为：所述完美调度模块(2)在每日的实时市场结束后，利用该日各时刻的已知信息，在系统运行状态与运行条件给定的情况下，以最小化系统发电成本为目标，利用考虑系统安全运行约束的最优机组组合和最优潮流SCOPF计算该日24个时刻的完美经济调度方案，生成完美调度策略；所述已知信息包括实际用电负荷、实际新能源出力与实际拓扑结构。 7.基于权利要求1所述的基于生成对抗模仿学习的电力系统动态经济调度系统，其特征在于：所述判别器网络模块(3)中的判别器网络包括7层网络结构，依次为判别器网络输入层、判别器网络归一化层、判别器网络第一隐藏层、判别器网络第一激活函数层、判别器网络第二隐藏层、判别器网络第二激活函数层、判别器网络输出层；所述判别器网络输入层的输入数据包括状态动作对(st,atg)和状态动作对(st,ate)，所述状态动作对(st,atg)为所述生成器网络输出层输出的atg和所述电力系统观测状态st组成的状态动作对，所述状态动作对(st,ate)为所述完美调度模块(2)生成的调度策略ate和所述电力系统观测状态st组成的状态动作对；所述判别器网络输出层的输出数据为所述完美调度方案的概率值；所述判别器网络在所述判别器网络输入层后加入所述判别器网络归一化层，将状态动作对进行归一化；在所述判别器网络输出层前加入所述判别器网络第二激活函数层，将输出映射至区间[0,1]，作为输入策略为完美调度策略的对应概率值；所述判别器网络Dω的目标函数为：其中， (st,atg)为所述生成器网络输出层输出的atg和所述电力系统观测状态st组成的状态动作对， (st,ate)为所述完美调度模块(2)生成的调度策略ate和所述电力系统观测状态 st组成的状态动作对， τG为所述生成器网络形成的生成器策略； τE为所述完美调度模块(2)权　利　要　求　书 2/3 页 3 CN 114240144 A 3

专利 基于生成对抗模仿学习的电力系统动态经济调度系统及方法

专利基于生成对抗模仿学习的电力系统动态经济调度系统及方法