专利基于强化学习的园区能效提升的设备优化配置方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111569479.7 (22)申请日 2021.12.21 (65)同一申请的已公布的文献号申请公布号 CN 114240192 A (43)申请公布日 2022.03.25 (73)专利权人特斯联科技集团有限公司地址 100027 北京市朝阳区新源南路8号启皓北京西塔1 1层 (72)发明人王海　张大鹏　李东东　 (74)专利代理机构北京春江专利商标代理事务所(普通合伙) 11835 专利代理师曹洁 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/06(2012.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113283156 A,2021.08.20 CN 112598129 A,2021.04.02 CN 113543156 A,2021.10.2 2 审查员汪见晗 (54)发明名称基于强化学习的园区能效提升的设备优化配置方法及系统 (57)摘要本发明公开了一种基于强化学习的园区能效提升的设备优化配置方法及系统，涉及智能节能技术领域，包括：以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型；根据设备电参数及设备所用配电线路性能参数，搭建基于 DDPG的具有双Actor网络的低碳管控智能体；对设备运作系统模型，利用各设备采集的数据进行计算，智能体推演获得园区各设备的低碳最优化配置。本发明能在学习效率高、配置需求复杂的情况下获得低碳最优的配置策略。权利要求书4页说明书10页附图7页 CN 114240192 B 2022.06.24 CN 114240192 B 1.一种基于强化学习的园区能效提升的设备优化配置方法，其特征在于，包括以下步骤： S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型； S2、针对设备i，根据设备电参数及设备所用配电线路性能参数，搭建基于DDPG的具有双Actor网络的低碳管控智能体，双Actor网络的部分状态变量相同； S3、对设备运作系统模型，利用园区低碳管控智能体进行计算，求解获得园区各设备的低碳最优化配置；所述S1的步骤包括： S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数，每个设备的设备电参数包括当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi [K]、当前设备平均能效比平均电压平均负载率和平均功率因数设备所用配电线路性能参数包括当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为园区内的第i个设备， N为园区内的设备总个数， K表示当前预设时段； S12、以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为输入参数，以下一预设时段综合线耗率γi[K+1]为输出参数，构建第i个设备的配电线路的神经网络模型， K+1表示下一预设时段； S13、以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率平均功率因数和下一预设时段综合线耗率γi[K+1]为输入参数，以下一预设时段设备平均能效比和下一预设时段用电量 Qi[K+1]为输出参数，构建第i个设备的神经网络模型； S14、对N个设备运行系统模型的输出参数，分别按照对应的权重信息进行加权平均值计算，计算的结果为组合使用N个设备运行系统模型的输出结果，获得下一预设时段所有设备平均能效比和下一预设时段总用电量 Q[K+1]；所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络，第一Actor网络的第一状态变量 εi[K]， λi[K]， ζi[K]]、第一动作变量和第一奖励信号为平均线路长度设定值，为平均截面积达标线路长度设定值， E为常数；第二Actor网络的第二状态变量第二动作变量和第二奖励信号为平均电压设定值，为平均负载率设定值，为平均功率因数设定值； S3的步骤包括：权　利　要　求　书 1/4 页 2 CN 114240192 B 2S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接，分别初始化各设备的第一Actor 网络、第二Actor 网络和Critic网络，令为当前第一状态，为当前第二状态，为当前第一状态对应的第一奖励信号的值，为当前第二状态对应的第二奖励信号的值； S32、针对设备i，利用当前第一Actor网络和k个随机设定的第一校正系数，计算得出k 组第一估计动作，第一校正系数用于对当前第一Act or网络生成的动作进行校正；以及利用当前第二Actor网络和k个随机设定的第二校正系数，计算得出k组第二估计动作，第二校正系数用于对当前第二Actor网络生成的动作进行校正；所有设备的一组第一估计动作构成一个第一估计动作集，所有设备的一组第二估计动作构成一个第二估计动作集； S33、 N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集，每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作；然后每个设备均向前推测p步，获得k组p步后的时段内的所有设备平均能效比和总用电量Qj[K+p]， j＝1,2， ...， k，选出最大所有设备平均能效比和最小总用电量 Qmin[K+p]； S34、比较最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量 Qmin[K+p]对应的各设备的第二奖励信号的平均值； S35、若不相等，则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集； S36、若相等，则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+ p]对应的各设备的第二奖励信号的平均值所对应的动作集； S37、执行第一实际动作集和第二实际动作集，针对设备i得到下一时段第一状态和对应的第一奖励信号的值下一时段第二状态和对应的第二奖励信号的值并将当前第一状态更新为下一时段第一状态当前第二状态更新为下一时段第二状态所有设备均完成更新； S38、以最大化折扣累积奖励为优化目标进行迭代，得到园区各设备的最优化配置。 2.根据权利要求1所述的方法，其特征在于，所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。 3.根据权利要求1所述的方法，其特征在于，所述第一Actor网络、第二Actor网络和 Critic网络均由若干层的全连接层网络构成。 4.一种基于强化学习的园区能效提升的设备优化配置系统，其特征在于，包括：设备运作系统模型构建装置，用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型；智能体模型构建装置，用于针对设备i，根据设备电参数及设备所用配电线路性能参数，搭建基于DDPG的具有双Actor网络的低碳管控智能体，双Actor网络的部分状态变量相同；配置优化装置，用于对设备运作系统模型，利用园区低碳管控智能体进行计算，求解获权　利　要　求　书 2/4 页 3 CN 114240192 B 3

专利 基于强化学习的园区能效提升的设备优化配置方法及系统

专利基于强化学习的园区能效提升的设备优化配置方法及系统