专利一种基于深度强化学习的配电网调度方法、装置及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210893449.X (22)申请日 2022.07.27 (71)申请人广东电网有限责任公司地址 510000 广东省广州市越秀区东风东路757号 (72)发明人陈铭　刘刚刚　侯凯　马顺　阮楠千　许银亮　梅诗妍　曾瑜　胡晋岚　孙罡　姜玉梁　周妍　秦燕　秦万祥　赵芳菲　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师吴松滨 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/06(2012.01)H02J 3/06(2006.01) H02J 3/38(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度强化学习的配电网调度方法、装置及介质 (57)摘要本发明提供了一种基于深度强化学习的配电网调度方法、装置及介质，所述方法包括：对待调度配电网构建多个设备分别对应的运行约束和成本函数、待调度配电网与主网电能交易的约束和成本函数和配电网的节点电压和支路功率的风险约束，获得所述待调度配电网的调度模型；获取状态变量、动作变量和奖赏函数并构建马尔科夫决策过程；结合基础数据，通过SA C算法训练对应于所述马尔科夫决策过程的策略网络；基于训练好的策略网络的输出，对所述待调度配电网进行调度。相比于现有技术，通过构建马尔科夫决策过程，以及通过SAC算法训练过的策略网络能适应于在线运行和复杂计算，实现毫秒级的快速计算，并显著提高了泛化能力。权利要求书4页说明书14页附图3页 CN 115169957 A 2022.10.11 CN 115169957 A 1.一种基于深度强化学习的配电网调度方法，其特征在于，包括：对待调度配电网构建多个设备分别对应的运行约束和成本函数，并构建对应于所述待调度配电网与主网电能交易的约束和成本函数，以及构建所述待调度配电网的节点电压和支路功率的风险约束，获得所述待调度配电网的调度模型；获取所述调度模型的状态变量、动作变量和奖赏函数，基于所述状态变量、所述动作变量和所述奖赏函数，对所述调度模型构建马尔科夫决策过程；在所述马尔科夫决策过程下，结合基础数据，通过SAC算法训练对应于所述马尔科夫决策过程的策略网络；基于训练好的策略网络的输出，对所述待调度配电网进行调度。 2.如权利要求1所述的一种基于深度强化学习的配电网调度方法，其特征在于，所述通过SAC算法训练对应于所述马尔科夫决策过程的策略网络，具体为：将所述SAC算法的参数通过ASAM算法和PER算法进行更新，通过更新后的SAC算法，训练智能体和对应于所述马尔科夫决策过程的策略网络；其中，所述SAC算法的参数包括soft Q 网络参数、温度系数和所述策略网络的网络参数。 3.如权利要求1所述的一种基于深度强化学习的配电网调度方法，其特征在于，所述多个设备包括不少于一个柴油机组和不少于一个储能系统；所述柴油机组的运行约束为：其中，为t时段所述待调度配电网中第i个柴油机组的有功出力， PiG为所述待调度配电网第i个柴油机组的最小有功功率，为所述待调度配电网第i个柴油机组的最大有功功率，为所有连接了柴油机组的节点的集合，为调度周期中所有时段的集合；所述柴油机组的成本函数为：其中，为t时段所述待调度配电网中全部柴油机组的燃料成本的和，为t 时段所述待调度配电网中全部柴油机组的碳排放成本之和， aG,i、 bG,i和cG,i为第i个柴油机组的燃料成本系数， dG,i和eG,i为第i个柴油机组的碳排放成本系数。 4.如权利要求3所述的一种基于深度强化学习的配电网调度方法，其特征在于，所述储能系统的运行约束为：权　利　要　求　书 1/4 页 2 CN 115169957 A 2其中，为t时段所述待调度配电网中第i个储能系统的有功出力，为所述待调度配电网中第i个储能系统的最大充电功率，为所述待调度配电网中第i个储能系统的最大放电功率，为所述待调度配电网中所有连接了储能系统的节点的集合， SOCi,t为t时段所述待调度配电网中第i个储能系统的荷电状态， SOCi,t为t时段所述待调度配电网中第i个储能系统允许的最小荷电状态，为所述待调度配电网中t时段第i个储能系统允许的最大荷电状态， ηC为储能系统的充电功率， ηD为储能系统的放电功率， Ei为所述待调度配电网中第i个储能系统的容量；所述储能系统的成本函数为：其中，为t时段所述待调度配电网全部储能的充放电成本之和， aE,i为所述待调度配电网中第i个储能系统的成本系数。 5.如权利要求4所述的一种基于深度强化学习的配电网调度方法，其特征在于，所述待调度配电网与主网电能交易的成本函数为：其中，为t时段所述待调度配电网向主网购电的成本， PtM>0为t时段所述待调度配电网向主网购电的功率， PtM<0为t时段所述待调度配电网向主网售电的功率， aM,t为t时段的实时电价，为主网购电和售电价格与实时价格的差额比例；所述待调度配电网与主网电能交易的约束为：其中，为t时段从主网流向所述待调度配电网的无功功率，为t时段从主网流向所述待调度配电网的视在功率， SM为传输线的最小容量，为所述传输线的最大容量。 6.如权利要求5所述的一种基于深度强化学习的配电网调度方法，其特征在于，所述构建所述待调度配电网的节点电压和支路功率的风险约束，包括：构建待调度配电网的内部潮流计算模型：权　利　要　求　书 2/4 页 3 CN 115169957 A 3

专利 一种基于深度强化学习的配电网调度方法、装置及介质

专利一种基于深度强化学习的配电网调度方法、装置及介质