全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111487731.X (22)申请日 2021.12.07 (71)申请人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 王佳宁 杨仁海 姚张浩 彭强  (74)专利代理 机构 合肥和瑞知识产权代理事务 所(普通合伙) 34118 代理人 王挺 (51)Int.Cl. H02M 7/5387(2007.01) H02M 1/088(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度强化学习的逆变 器效率优化方法 (57)摘要 本发明提供了一种基于深度强化学习的逆 变器效率优化方法, 属于电力电子技术领域。 包 括建立效率优化模型; 确定状态集合、 动作集合 和奖励函数; 利用DDPG算法进行离线学习, 得到 最优策略; 根据该最优策略, 系统在状态集合S的 任一状态下均能实现效率最大化。 本发明的优化 方法采用神经网络替代了强化学习的Q ‑table查 找表, 能够解决高维设计变量问题, 可 以在连续 变量区间内以及动态的逆变器额定工作条件下 训练, 从而直接得到最优设计变量值使效率达到 最大, 避免了传统优化方法只能在离散区间内寻 优会导致最优解丢失的情况, 同时不需要重新进 行复杂、 耗时的寻优求 解过程, 节省计算资源。 权利要求书3页 说明书11页 附图4页 CN 114172403 A 2022.03.11 CN 114172403 A 1.一种基于深度强化学习的逆变器效率优化方法, 所述逆变器包括直流电压源(10)、 三相三电平ANPC逆变电路(20)、 滤波电路(30)和负载(40); 所述三相三电平ANPC逆变电路 (20)包括两个相同的支撑电容和一个逆变主电路, 其中, 两个支撑电容分别记为支撑电容 Cap1和支撑电容Cap2, 支撑电容Cap1和支撑电容Cap2串联后接在直流电压源(10)的直流正 母线P和直流负母线E之间; 所述逆变主电路包括三相桥臂, 三相桥臂互相并联在直流电压 源(10)的直流正母线P和直流负母线E之间; 所述滤波电路(30)包括三相滤波电感L和三相 滤波电容C0, 三相滤波电感L的一端接三相三电平ANPC逆变电路(20)的输出端, 另一端接负 载(40), 三相滤波电容C0并联在三相滤波电感L和负载(40)之间; 其特征在于, 所述逆变器效率优化方法基于深度强化学习对逆变器效率进行优化, 具 体步骤如下: 步骤1, 建立效率优化模型 步骤1.1, 将逆变 器记为系统, 并做以下设定: 系统中支撑电容Cap1、 支撑电容Cap2和三相滤波电容C0的损耗忽略不计; 在逆变主电路中包括σ 个带反并联二极管的开关管, 其中, σ 1个为工频开关管、 σ 2个为 高频开关管; 步骤1.2, 以系统的效率 η为目标, 建立效率优化模型, 具体表达式如下: 式中, Ploss为系统的总损耗, Ploss=PT+PL, PT为系统中σ 个开关管和σ 个反并联二极管的 总损耗, PL为系统中三相滤波电感L的损耗, Pw为系统的额定 输入功率; 步骤2, 根据步骤1得到的效率优化模型, 确定状态集 合S、 动作集 合A0和奖励函数R; 所述状态集 合S的表达式如下: S∈{(Udc, I, η )} 式中, Udc为直流电压源(10)的电压值, I 为系统的输出电流有效值; 所述动作集 合A0的表达式如下: 式中, fsw为高频开关管的开关频率, 记为高频开关频率fsw, fsw_min为高频开关频率fsw的 下限值, fsw_max为高频开关频率fsw的上限值; 记系统某一时刻为t, t=1, 2, 3 …T, T为系统终止状态的时刻, 将系统在t时刻的状态记 为st, 将系统在t时刻采取的动作记为at, 具体表达式如下: st=(Udc, I, η )t at=(fsw)t; 所述奖励函数R表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权 和, 表达式如下: 权 利 要 求 书 1/3 页 2 CN 114172403 A 2式中, rt为系统在t时刻的状态st采取动作at后得到的单步奖励值, rt=‑ε×Ploss, ε为权 重系数, γ为 折扣因子, 折扣因子γ表示时间的长短对奖励值的影响程度; 步骤3, 根据步骤2得到的状态集合S、 动作集合A0和奖励函数R, 利用深度强化学习的 DDPG算法进行离线学习, 得到最优策略π(sy); 所述DDPG算法包含4个神经网络, 分别为在线策略网络、 目标策略网络、 在线评价网络 和目标评价 网络, 其中, 在线策略网络的神经网络参数记为θμ, 目标策略网络的神经网络参 数记为θμ′, 在线评价网络的神经网络参数记为θQ, 目标评价网络的神经网络参数记为θQ′; 所述最优策略π(sy)的表达式如下: π(sy)=ay 式中, sy为与最优策略对应的在线策略网络输入的状态值, 且sy=(Udc, I, η )y, (Udc, I, η )y为状态集合S中与最优策略对应的个体, ay为与最优策略对应的在线策略网络输出的动 作值, 且ay=(fsw)y, (fsw)y为动作集 合A0中与最优策略对应的高频开关频率; 将最优策略π(sy)代入步骤1建立的效率优 化模型, 系统在状态集合S中的任一状态下均 能实现效率 最大化。 2.根据权利要求1所述的一种基于深度强化学习的逆变器效率优化方法, 其特征在于, 步骤3所述利用深度强化学习的DDPG算法进行离线学习, 得到最优策略π(sy)的具体步骤如 下: 步骤3.1, 初始化在线策略网络、 目标策略网络、 在线评价网络和目标评价网络的神经 网络参数θμ、 θμ′、 θQ、 θQ′, 令θμ′=θμ、 θQ′=θQ; 初始化经验回放池P的容 量为D; 记在线策略网络的输出为a, a= μ(s|θμ), 其中, a为在线策略网络输出的动作值, a对应 于权利要求 1中的所述动作集合A0中的个体, 且a=fsw; s为在线策略网络输入的状态 值, s对 应于权利要求1中的所述状态集合S中的个体, 且s=(Udc, I, η ); μ为通过在线策略网络的神 经网络参数θμ和输入的状态值s得到的策略; 步骤3.2, 将系统在t时刻的状态st输入在线策略网络, 得到在线策略网络的输出 并添加噪声 δt, 得到最终输出的动作at, 具体表达式如下: 步骤3.3, 系统根据状态st执行动作at, 转换到新的状态st+1, 同时得到执行动作at后的 单步奖励值rt, 将(st, at, rt, st+1)称为状态转换序列, 并把(st, at, rt, st+1)存入经验回放池 P, 系统进入下一时刻t+1的状态st+1; 循环执行步骤3.2~步骤3.3, 记经验回放池P中状态转换序列的个数为N, 若N=D, 进入 步骤3.4, 否则返回步骤3.2; 步骤3.4, 从经验回放池P中随机抽取n个状态转换序列, 且n<D, 将n个状态转换序列作 为训练在线策略网络和在线评价网络的小批量数据, 将小批量数据中的第k个状态转换序 列记为(sk, ak, rk, sk+1), k=1, 2, 3…n; 步骤3.5, 根据步骤3.4得到的小批量数据(sk, ak, rk, sk+1), k=1, 2, 3 …n, 计算得到累积 奖励yk和误差函数L( θQ), 具体表达式如下: yk=rk+Q′(sk+1, μ′(sk+1| θμ′)| θQ′)权 利 要 求 书 2/3 页 3 CN 114172403 A 3

.PDF文档 专利 基于深度强化学习的逆变器效率优化方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的逆变器效率优化方法 第 1 页 专利 基于深度强化学习的逆变器效率优化方法 第 2 页 专利 基于深度强化学习的逆变器效率优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:29:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。