专利基于深度强化学习的逆变器效率优化方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111487731.X (22)申请日 2021.12.07 (71)申请人合肥工业大学地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人王佳宁　杨仁海　姚张浩　彭强　 (74)专利代理机构合肥和瑞知识产权代理事务所(普通合伙) 34118 代理人王挺 (51)Int.Cl. H02M 7/5387(2007.01) H02M 1/088(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度强化学习的逆变器效率优化方法 (57)摘要本发明提供了一种基于深度强化学习的逆变器效率优化方法，属于电力电子技术领域。包括建立效率优化模型；确定状态集合、动作集合和奖励函数；利用DDPG算法进行离线学习，得到最优策略；根据该最优策略，系统在状态集合S的任一状态下均能实现效率最大化。本发明的优化方法采用神经网络替代了强化学习的Q ‑table查找表，能够解决高维设计变量问题，可以在连续变量区间内以及动态的逆变器额定工作条件下训练，从而直接得到最优设计变量值使效率达到最大，避免了传统优化方法只能在离散区间内寻优会导致最优解丢失的情况，同时不需要重新进行复杂、耗时的寻优求解过程，节省计算资源。权利要求书3页说明书11页附图4页 CN 114172403 A 2022.03.11 CN 114172403 A 1.一种基于深度强化学习的逆变器效率优化方法，所述逆变器包括直流电压源(10)、三相三电平ANPC逆变电路(20)、滤波电路(30)和负载(40)；所述三相三电平ANPC逆变电路 (20)包括两个相同的支撑电容和一个逆变主电路，其中，两个支撑电容分别记为支撑电容 Cap1和支撑电容Cap2，支撑电容Cap1和支撑电容Cap2串联后接在直流电压源(10)的直流正母线P和直流负母线E之间；所述逆变主电路包括三相桥臂，三相桥臂互相并联在直流电压源(10)的直流正母线P和直流负母线E之间；所述滤波电路(30)包括三相滤波电感L和三相滤波电容C0，三相滤波电感L的一端接三相三电平ANPC逆变电路(20)的输出端，另一端接负载(40)，三相滤波电容C0并联在三相滤波电感L和负载(40)之间；其特征在于，所述逆变器效率优化方法基于深度强化学习对逆变器效率进行优化，具体步骤如下：步骤1，建立效率优化模型步骤1.1，将逆变器记为系统，并做以下设定：系统中支撑电容Cap1、支撑电容Cap2和三相滤波电容C0的损耗忽略不计；在逆变主电路中包括σ 个带反并联二极管的开关管，其中， σ 1个为工频开关管、 σ 2个为高频开关管；步骤1.2，以系统的效率 η为目标，建立效率优化模型，具体表达式如下：式中， Ploss为系统的总损耗， Ploss＝PT+PL， PT为系统中σ 个开关管和σ 个反并联二极管的总损耗， PL为系统中三相滤波电感L的损耗， Pw为系统的额定输入功率；步骤2，根据步骤1得到的效率优化模型，确定状态集合S、动作集合A0和奖励函数R；所述状态集合S的表达式如下： S∈{(Udc， I， η )} 式中， Udc为直流电压源(10)的电压值， I 为系统的输出电流有效值；所述动作集合A0的表达式如下：式中， fsw为高频开关管的开关频率，记为高频开关频率fsw， fsw_min为高频开关频率fsw的下限值， fsw_max为高频开关频率fsw的上限值；记系统某一时刻为t， t＝1， 2， 3 …T， T为系统终止状态的时刻，将系统在t时刻的状态记为st，将系统在t时刻采取的动作记为at，具体表达式如下： st＝(Udc， I， η )t at＝(fsw)t；所述奖励函数R表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和，表达式如下：权　利　要　求　书 1/3 页 2 CN 114172403 A 2式中， rt为系统在t时刻的状态st采取动作at后得到的单步奖励值， rt＝‑ε×Ploss， ε为权重系数， γ为折扣因子，折扣因子γ表示时间的长短对奖励值的影响程度；步骤3，根据步骤2得到的状态集合S、动作集合A0和奖励函数R，利用深度强化学习的 DDPG算法进行离线学习，得到最优策略π(sy)；所述DDPG算法包含4个神经网络，分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络，其中，在线策略网络的神经网络参数记为θμ，目标策略网络的神经网络参数记为θμ′，在线评价网络的神经网络参数记为θQ，目标评价网络的神经网络参数记为θQ′；所述最优策略π(sy)的表达式如下： π(sy)＝ay 式中， sy为与最优策略对应的在线策略网络输入的状态值，且sy＝(Udc， I， η )y， (Udc， I， η )y为状态集合S中与最优策略对应的个体， ay为与最优策略对应的在线策略网络输出的动作值，且ay＝(fsw)y， (fsw)y为动作集合A0中与最优策略对应的高频开关频率；将最优策略π(sy)代入步骤1建立的效率优化模型，系统在状态集合S中的任一状态下均能实现效率最大化。 2.根据权利要求1所述的一种基于深度强化学习的逆变器效率优化方法，其特征在于，步骤3所述利用深度强化学习的DDPG算法进行离线学习，得到最优策略π(sy)的具体步骤如下：步骤3.1，初始化在线策略网络、目标策略网络、在线评价网络和目标评价网络的神经网络参数θμ、 θμ′、 θQ、 θQ′，令θμ′＝θμ、 θQ′＝θQ；初始化经验回放池P的容量为D；记在线策略网络的输出为a， a＝ μ(s|θμ)，其中， a为在线策略网络输出的动作值， a对应于权利要求 1中的所述动作集合A0中的个体，且a＝fsw； s为在线策略网络输入的状态值， s对应于权利要求1中的所述状态集合S中的个体，且s＝(Udc， I， η )； μ为通过在线策略网络的神经网络参数θμ和输入的状态值s得到的策略；步骤3.2，将系统在t时刻的状态st输入在线策略网络，得到在线策略网络的输出并添加噪声 δt，得到最终输出的动作at，具体表达式如下：步骤3.3，系统根据状态st执行动作at，转换到新的状态st+1，同时得到执行动作at后的单步奖励值rt，将(st， at， rt， st+1)称为状态转换序列，并把(st， at， rt， st+1)存入经验回放池 P，系统进入下一时刻t+1的状态st+1；循环执行步骤3.2～步骤3.3，记经验回放池P中状态转换序列的个数为N，若N＝D，进入步骤3.4，否则返回步骤3.2；步骤3.4，从经验回放池P中随机抽取n个状态转换序列，且n＜D，将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据，将小批量数据中的第k个状态转换序列记为(sk， ak， rk， sk+1)， k＝1， 2， 3…n；步骤3.5，根据步骤3.4得到的小批量数据(sk， ak， rk， sk+1)， k＝1， 2， 3 …n，计算得到累积奖励yk和误差函数L( θQ)，具体表达式如下： yk＝rk+Q′(sk+1， μ′(sk+1| θμ′)| θQ′)权　利　要　求　书 2/3 页 3 CN 114172403 A 3

专利 基于深度强化学习的逆变器效率优化方法

专利基于深度强化学习的逆变器效率优化方法