专利一种基于强化学习的时滞风电系统广域阻尼器控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210994492.5 (22)申请日 2022.08.18 (71)申请人武昌理工学院地址 430200 湖北省武汉市江夏区庙山经济开发区江夏大道16号 (72)发明人谢兴旺　 (74)专利代理机构武汉知产时代知识产权代理有限公司 42 238 专利代理师魏波 (51)Int.Cl. H02J 3/24(2006.01) H02J 3/38(2006.01) G06F 30/18(2020.01) G06F 30/27(2020.01) G06F 30/28(2020.01)G06N 20/00(2019.01) G06F 113/06(2020.01) G06F 111/10(2020.01) G06F 111/02(2020.01) G06F 113/04(2020.01) (54)发明名称一种基于强化学习的时滞风电系统广域阻尼器控制方法 (57)摘要本发明公开一种基于强化学习的时滞风电系统广域阻尼器控制方法，方法包括以下步骤：构建基于强化学习的时滞风电广域阻尼 (TDWADC)控制系统； TDWADC控制系统包括：双馈型风电机组和基于强化学习的TDWADC控制器；通过对系统的几何可控/可观度进行分析，选择和区间振荡模态对应的几何可观度最高的一个或几个反馈信号作为TDWADC的输入信号；采用基于强化学习的TDWADC控制器控制所述双馈型风电机组；本发明有益效果是：该TDWADC控制器能够及时有效抑制电力系统的低频振荡，一方面提高电网的安全性与稳定性，另一方面使得电网能够及时大规模吸纳风电厂发出的电能，提高风力发电企业的经济和社会效益。权利要求书3页说明书12页附图6页 CN 115395532 A 2022.11.25 CN 115395532 A 1.一种基于强化学习的时滞风电系统广域阻尼器控制方法，其特征在于： S101：构建基于强化学习的时滞风电广域阻尼TDWADC控制系统； TDWADC控制系统包括：多组双馈型风电机组和基于强化学习的TDWADC控制器；其中双馈型风电机组包括：风力机、齿轮箱、双馈感应发电机DFIG、变压器、转子侧变频器、电网侧变频器和过压保护电路Cro wBar；风力机与齿轮箱通过机械传动连接；齿轮箱与双馈感应发电机通过传动轴承连接；双馈感应发电机DFIG与变压器通过电磁耦合连接，并通过变压器接入交流电网；双馈感应发电机DFIG与过压保护电路CrowBar的输出端、转子侧变频器的输入端电气连接；转子侧变频器的输出端与电网侧变频器的输入端电气连接；电网侧变频器的输出端与变压器的一端电气连接； S102：采用基于强化学习的TDWADC控制器控制所述双馈型风电机组；基于强化学习的TDWADC控制器，其包括三部分控制：强化学习控制、电压外环PI控制和电流内环PI控制；强化学习控制的输入信号为多组双馈型风电机组通过通信网络联络后产生的广域反馈功率信号；强化学习控制的输出信号接入电压外环PI控制；强化学习控制的输入信号选择过程具体如下：采用模态的几何可控/可观度方法对广域反馈功率信号进行选择，通过对广域反馈功率信号进行几何可控/可观进行分析，选择和区间震荡模型对应的几何可观度最高的一个或几个广域反馈功率信号作为强化学习控制器的输入信号；电压外环PI控制用于控制电网侧变频器；电流内环PI控制，用于控制转子侧变频器输出指定的有功和无功功率，完成对风力机并网接入点出功率振荡的抑制。 2.如权利要求1所述的基于强化学习的时滞风电系统广域阻尼器控制方法，其特征在于：所述强化学习控制包括：状态转换器、 Actor网络和Critic网络；其单独控制的原理为：根据实际情况预先给定信号w(t)与输出量y(t)相减，产生误差信号e(t)；误差信号e (t)经过状态转换器转变为强化学习网络的输入状态信号x(t)；状态信号x(t)输入至Actor 网络，得到输出信号un(t)；状态信号x(t)与误差的强化学习信号r(t)一起输入至Critic网络，得到输出信号n(t)；输出信号un(t)与n(t)相结合，得到被控光伏发电系统的控制输入信号u(t)； u(t)作用于被控光伏发电系统，得到输出信号y(t)形成闭环控制； Actor网络和 Critic网络还通过时序差分信号 δTD(t)在线更新Actor网络和Critic网络的权值系数。 3.如权利要求2所述的基于强化学习的时滞风电系统广域阻尼器控制方法，其特征在于：采用两个BP网络分别完成所述Actor网络的策略函数和所述Critic网络的值函数功能。 4.如权利要求3所述的基于强化学习的时滞风电系统广域阻尼器控制方法，其特征在于：所述Critic网络的输入为状态信号 xc(t)＝[x1(t),x2(t)…,xn(t),r(t)]T (1)， Critic网络误差函数如式(2)所示，权　利　要　求　书 1/3 页 2 CN 115395532 A 2其中λ为折扣系数， 0 < λ<1； r(t)定义为：其中为 ε>0的常数； Critic网络隐含层神经元的转移函数采用双极性sigmo id函数，如式(4)所示： Critic网络输出为性能指标函数J(t)，其隐含层采sigmoid激活函数，输出层则采用线性激活函数； Critic网络的隐含层和输出层神经元的输入和输出如式(5)：其中Nc为评价网络隐含层神经元的个数， qi和pi分别为隐含层第i个神经元的输入和输出， ωc(1)和ωc(2)分别表示输入层到隐含层与隐含层到输出层的权值； Critic网络权值更新计算如公式(6)： ηc(t)是Critic网络的学习速率；根据反向梯度下降法得到从隐含层到输出层梯度计算如式(7)所示：从输入层到隐含层梯度计算式如式(8)所示： 5.如权利要求4所述的一种基于强化学习的时滞风电系统广域阻尼器控制方法，其特征在于：所述Actor网络的输入为： xa(t)＝[x1(t),x2(t)…,xn(t)]T (9) Actor网络隐含层和输出层神经元的输入和输出如式(10)： Na为评价网络隐含层神经元的个数， hi和gi分别为隐含层第i个神经元的输入和输出，权　利　要　求　书 2/3 页 3 CN 115395532 A 3

专利 一种基于强化学习的时滞风电系统广域阻尼器控制方法

专利一种基于强化学习的时滞风电系统广域阻尼器控制方法