专利基于约束投影强化学习的分布式经济调度优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211071171.4 (22)申请日 2022.09.02 (71)申请人西南大学地址 400715 重庆市北碚区天生路2号 (72)发明人李华青　李骏　郑李逢　冯丽萍　夏大文　石亚伟　王慧维　李传东　张伟　纪良浩　李永福　董滔　吕庆国　陈孟钢　王政　冉亮　杜镇源　 (74)专利代理机构重庆智慧之源知识产权代理事务所(普通合伙) 50234 专利代理师余洪 (51)Int.Cl. H02J 3/46(2006.01) G06Q 50/06(2012.01)G06Q 10/06(2012.01) G06Q 10/04(2012.01) (54)发明名称基于约束投影强化学习的分布式经济调度优化方法 (57)摘要本发明提供一种基于约束投影强化学习的分布式经济调度优化方法，包括：基于运行约束，结合发电成本函数和发电单元的可行功率输出构建分布式经济调度数学模型；对区域通信网络中的每个发电机实施平均一致性方法，以分布式方式获取微电网中的全局信息；采用Actor ‑ Critic算法将分布式经济调度数学模型转换为基于约束投影的分布式经济调度优化问题；结合拉格朗日乘子法与罚函数法，得到优化问题的增广拉格朗日对偶形式，并基于KKT条件得到分布式经济调度优化问题的最优功率输出。本发明能够有效协调微电网中发电机的功率输出，而无需关注成本函数的构建，并能够通过与未知负载总线的反馈交互完成分布式调度任务。权利要求书8页说明书20页附图7页 CN 115473286 A 2022.12.13 CN 115473286 A 1.一种基于约束投影强化学习的分布式经济调度优化方法，其特征在于，包括以下步骤：基于运行约束，结合发电成本函数和发电单元的可行功率输出构建分布式经济调度数学模型，所述运行约束包括节点功率平衡限制、爬坡率限制和发电容量限制；对区域通信网络中的每个发电机实施平均一致性方法，以分布式方式获取微电网中的全局信息；采用Actor ‑Critic算法将分布式经济调度数学模型转换为基于约束投影的分布式经济调度优化问题；结合拉格朗日乘子法与罚函数法，得到所述分布式经济调度优化问题的增广拉格朗日对偶形式，并基于K KT条件得到分布式经济调度优化问题的最优功率输出。 2.根据权利要求1所述的基于约束投影强化学习的分布式经济调度优化方法，其特征在于，所述基于运行约束，结合发电成本函数和发电单元的可行功率输出构建分布式经济调度数学模型，具体包括：构建的分布式经济调度数学模型为： |poi,t‑poi,t‑1|≤pri (3) 式(2)‑(4)分别为节点功率平衡限制、爬坡率限制和发电容量限制，式中， i＝1, …,N,t ＝1,…T， T表示总时隙， Ci是发电成本函数， poi,t是发电单元的可行功率输出， pdi,t是公用电网中负载单元的功率需求， pri表示第i个发电机的爬坡率限制，和是第i个发电机的最小和最大发电界限；在不计线路传输损耗时，有：式中， PDt是时隙t的总功率需求；包含多种能源选择的混合成本函数为：式中，是第i个发电机的成本系数， m＝1,. ..,M， h＝1,. ..,H，权　利　要　求　书 1/8 页 2 CN 115473286 A 2求解公式(1)时，设定假设1和假设2，其中，假设1为根据微电网的通信拓扑结构，每个负载总线信号均能够发送到对应的发电机总线；假设2为分布式经济调度数学模型中至少存在一个可行解满足运行约束(2) ‑(4)。 3.根据权利要求2所述的基于约束投影强化学习的分布式经济调度优化方法，其特征在于，所述对区域通信网络中的每个发电机实施平均一致性方法，以分布式方式获取微电网的全局信息，具体包括：基于二阶比例积分的动态平均一致性估计方程为：式中， Ni表示相邻节点的集合， ui是控制输入， vi是估计状态， zi是决策变量；若系统拓扑为无向图，则估计状态收敛于所有控制输入ui的累积平均值，即在每个发电机均满足前述条件时，能够通过全局变量 N计算控制输入ui的累加。 4.根据权利要求3所述的基于约束投影强化学习的分布式经济调度优化方法，其特征在于，所述采用Act or‑Critic算法将所述分布式经济调度数学模型转换为基于约束投影的分布式经济调度优化问题，具体包括：基于马尔科夫决策，下一个过程表示为： Pr(st+1∣ s0,a0,…,st,at)＝Pr(st+1∣ st,at) (8) 强化学习包括T个进程的五元组(S,A,T,R,Π)，其中，包括状态集S＝{st}；动作集A＝ {at}；状态转移模型奖励集R＝{rt}和动作的策略分布{ πt}，表示在状态st和动作at下移动到下一个状态st+1的概率； πt～Pr(at∣ st)表示根据st选择at的概率；作为长期累积奖励，回报通过在每一次训练优化动作的策略πt来被最大化/ 最小化； Actor‑Critic网络的输出表示为：式中，和分别是Actor神经网络的权重和Critic神经网络的权重； Sa和Sc是激活函数；和是特征向量；动作概率是Actor网络的输出，状态值函数是Critic网络在时隙t和迭代索引k的输出；每个智能体的时序差分误差为：权　利　要　求　书 2/8 页 3 CN 115473286 A 3

专利 基于约束投影强化学习的分布式经济调度优化方法

专利基于约束投影强化学习的分布式经济调度优化方法