全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211071171.4 (22)申请日 2022.09.02 (71)申请人 西南大学 地址 400715 重庆市北碚区天生路2号 (72)发明人 李华青 李骏 郑李逢 冯丽萍  夏大文 石亚伟 王慧维 李传东  张伟 纪良浩 李永福 董滔  吕庆国 陈孟钢 王政 冉亮  杜镇源  (74)专利代理 机构 重庆智慧之源知识产权代理 事务所(普通 合伙) 50234 专利代理师 余洪 (51)Int.Cl. H02J 3/46(2006.01) G06Q 50/06(2012.01)G06Q 10/06(2012.01) G06Q 10/04(2012.01) (54)发明名称 基于约束投影强化学习的分布式经济调度 优化方法 (57)摘要 本发明提供一种基于约束投影强化学习的 分布式经济调度优化方法, 包括: 基于运行约束, 结合发电成本函数和发电单元的可行功率输出 构建分布式经济调度数学模型; 对区域通信网络 中的每个发电机实施平均一致性方法, 以分布式 方式获取微电网中的全局信息; 采用Actor ‑ Critic算法将分布式经济调度数学模型转换为 基于约束投影的分布式经济调度优化问题; 结合 拉格朗日乘子法与罚函数法, 得到优化问题的增 广拉格朗日对偶形式, 并基于KKT条件得到分布 式经济调度优化问题的最优功率输出。 本发明能 够有效协调微电网中发电机的功率输出, 而无需 关注成本函数的构建, 并能够通过与未知负载总 线的反馈交 互完成分布式调度任务。 权利要求书8页 说明书20页 附图7页 CN 115473286 A 2022.12.13 CN 115473286 A 1.一种基于约束投影强化学习的分布式经济调度优化方法, 其特征在于, 包括以下步 骤: 基于运行约束, 结合发电成本函数和发电单元的可行功率输出构建分布式经济调度 数 学模型, 所述 运行约束包括节点功率平衡限制、 爬坡率限制和发电容 量限制; 对区域通信网络 中的每个发电机实施平均一致性方法, 以分布式方式获取微电网中的 全局信息; 采用Actor ‑Critic算法将分布式经济调度数学模型转换为基于约束投影的分布式经 济调度优化问题; 结合拉格朗日乘子法与罚函数法, 得到所述分布式经济调度优化问题的增广拉格朗日 对偶形式, 并基于K KT条件得到分布式经济调度优化问题的最优功率输出。 2.根据权利要求1所述的基于约束投影强化学习的分布式经济调度优化方法, 其特征 在于, 所述基于运行约束, 结合发电成本函数和发电单元 的可行功率输出构建分布式经济 调度数学模型, 具体包括: 构建的分布式经济调度数 学模型为: |poi,t‑poi,t‑1|≤pri    (3) 式(2)‑(4)分别为节点功率平衡限制、 爬坡率限制和发电容量限制, 式中, i=1, …,N,t =1,…T, T表示总时隙, Ci是发电成本函数, poi,t是发电单元 的可行功率输出, pdi,t是公用 电网中负载单元的功率需求, pri表示第i个发电机的爬坡率限制, 和 是第i个发 电机的最小和最大发电界限; 在不计线路传输损耗时, 有: 式中, PDt是时隙t的总功率需求; 包含多种能源选择的混合成本函数为: 式中, 是第i个发电机的成本系数, m=1,. ..,M, h=1,. ..,H,权 利 要 求 书 1/8 页 2 CN 115473286 A 2求解公式(1)时, 设定假设1和假设2, 其中, 假设1为根据微电网的通信拓扑结构, 每个 负载总线信号均能够发送到对应的发电机总线; 假设2为分布式经济调度数学模型中至少 存在一个可 行解 满足运行约束(2) ‑(4)。 3.根据权利要求2所述的基于约束投影强化学习的分布式经济调度优化方法, 其特征 在于, 所述对区域通信网络中的每个发电机实施平均一致性方法, 以分布式方式获取微电 网的全局信息, 具体包括: 基于二阶比例积分的动态 平均一致性估计方程 为: 式中, Ni表示相邻节点的集 合, ui是控制输入, vi是估计状态, zi是决策变量; 若系统拓扑为 无向图, 则估 计状态收敛于所有控制输入ui的累积平均值, 即 在每个发电机均满足前述条件时, 能够通过全局变量 N计算控制输入ui的累加。 4.根据权利要求3所述的基于约束投影强化学习的分布式经济调度优化方法, 其特征 在于, 所述采用Act or‑Critic算法将所述分布式经济调度数学模型转换为基于约束投影的 分布式经济调度优化问题, 具体包括: 基于马尔科 夫决策, 下一个过程表示 为: Pr(st+1∣ s0,a0,…,st,at)=Pr(st+1∣ st,at)  (8) 强化学习包括T个进程的五元组(S,A,T,R,Π), 其中, 包括状态集S={st}; 动作集A= {at}; 状态转移 模型 奖励集R={rt}和动作的策略分布{ πt}, 表示在状态st和动作at下移动到下一个状态st+1的概率; πt~Pr(at∣ st)表示根据st选择at的 概率; 作为长期累积奖励, 回报 通过在每一 次训练优化动作的策略πt来被最大化/ 最小化; Actor‑Critic网络的输出表示 为: 式中, 和 分别是Actor神经网络的权 重和Critic神经网络的权 重; Sa和Sc是激活函 数; 和 是特征向量; 动作概率 是Actor网络的输出, 状态值函数 是Critic网络 在时隙t和迭代索引k的输出; 每个智能体的时序差分误差为: 权 利 要 求 书 2/8 页 3 CN 115473286 A 3

.PDF文档 专利 基于约束投影强化学习的分布式经济调度优化方法

文档预览
中文文档 36 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于约束投影强化学习的分布式经济调度优化方法 第 1 页 专利 基于约束投影强化学习的分布式经济调度优化方法 第 2 页 专利 基于约束投影强化学习的分布式经济调度优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:39:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。