全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111569479.7 (22)申请日 2021.12.21 (65)同一申请的已公布的文献号 申请公布号 CN 114240192 A (43)申请公布日 2022.03.25 (73)专利权人 特斯联科技 集团有限公司 地址 100027 北京市朝阳区新源南路8号启 皓北京西塔1 1层 (72)发明人 王海 张大鹏 李东东  (74)专利代理 机构 北京春江专利商标代理事务 所(普通合伙) 11835 专利代理师 曹洁 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/06(2012.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113283156 A,2021.08.20 CN 112598129 A,2021.04.02 CN 113543156 A,2021.10.2 2 审查员 汪见晗 (54)发明名称 基于强化学习的园区能效提升的设备优化 配置方法及系统 (57)摘要 本发明公开了一种基于强化学习的园区能 效提升的设备优化配置方法及系统, 涉及智能节 能技术领域, 包括: 以园区各设备电参数及设备 所用配电线路性能参数为神经网络模型的输入 输出参数, 构建设备运作系统模型; 根据设备电 参数及设备所用配电线路性能参数, 搭建基于 DDPG的具有双Actor网络的低碳管控智能体; 对 设备运作系统模 型, 利用各设备采集的数据进行 计算, 智能体推演获得园区各设备的低碳最优化 配置。 本发明能在学习效率高、 配置需求复杂的 情况下获得低碳 最优的配 置策略。 权利要求书4页 说明书10页 附图7页 CN 114240192 B 2022.06.24 CN 114240192 B 1.一种基于强化学习的园区能效提升的设备优化配置方法, 其特征在于, 包括以下步 骤: S1、 以园区各设备电参数及 设备所用配电线路性能参数为神经网络模型的输入输出参 数, 构建设备运作系统模型; S2、 针对设备i, 根据设备电参数及设备所用配电线路性能参数, 搭建基于DDPG的具有 双Actor网络的低碳管控智能体, 双Actor网络的部分状态变量相同; S3、 对设备运作系统模型, 利用园区低碳管控智能体进行计算, 求解获得园区各设备的 低碳最优化配置; 所述S1的步骤 包括: S11、 分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数, 每 个设备的设备电参数包括当前用电量Qi[K]、 电压不合格累计时间Ti[K]、 电流不平衡率δi [K]、 当前设备平均能效比 平均电压 平均负载率 和平均功率因数 设备所用配电线路性 能参数包括当前综合线耗率γi[K]、 三相负荷不平衡率εi[K]、 总谐波 畸变率λi[K]、 电压合格率ζi[K]、 平均线路长度 和平均截面积达标线路长度 为园区内的第i个设备, N为园区内的设备总个数, K表示当前预设时 段; S12、 以当前综合线耗率γi[K]、 三相负荷不平衡率εi[K]、 总谐波畸变率λi[K]、 电压合 格率ζi[K]、 平均线路长度 和平均截面积达标线路长度 为输入参数, 以下一预设 时段综合线耗率γi[K+1]为输出参数, 构建第i个设备的配电线路的神经网络模型, K+1表 示下一预设时段; S13、 以当前用电量Qi[K]、 电压不合格累计时间Ti[K]、 电流不平衡率δi[K]、 当前设备平 均能效比 平均电压 平均负载率 平均功率因数 和下一预设时段 综合线耗率γi[K+1]为输入参 数, 以下一预 设时段设备平均能效比 和下一预设 时段用电量 Qi[K+1]为输出参数, 构建第i个设备的神经网络模型; S14、 对N个设备运行系统模型的输出参数, 分别按照对应的权重信息进行加权平均值 计算, 计算的结果为组合使用N个设备运行系统模 型的输出结果, 获得下一预设时段所有设 备平均能效比 和下一预设时段总用电量 Q[K+1]; 所述低碳管控智能体包括第一Actor网络、 第二Actor网络和Critic网络, 第一Actor网 络的第一状态变量 εi[K], λi[K], ζi[K]]、 第一动作变量 和 第一奖励信号 为平均 线路长度设定值, 为平均截面积达标线路长度设定值, E为常数; 第二Actor网络的第二状态变量 第二动作变 量 和第二奖励信号 为平均电压设定值, 为平均负载率设定值, 为平均功率因数设定值; S3的步骤 包括:权 利 要 求 书 1/4 页 2 CN 114240192 B 2S31、 将N个设备i的设备运作系 统模型与N个低碳管控智能体分别一一对应连接, 分别 初始化各设备的第一Actor 网络、 第二Actor 网络和Critic网络, 令 为当前第一状态, 为当前第二状态, 为当前第一状态对应的第一奖励信号的值, 为当前第二状态对应 的第二奖励信号的值; S32、 针对设备i, 利用当前第一Actor网络和k个随机设定 的第一校正系数, 计算得出k 组第一估计动作, 第一校正系数用于对当前第一Act or网络生 成的动作进 行校正; 以及利用 当前第二Actor网络和k个随机设定的第二校正系数, 计算得出k组第二估计动作, 第二校正 系数用于对当前第二Actor网络生成的动作进行校正; 所有设备的一组第一估计动作构成 一个第一估计动作集, 所有设备的一组第二估计动作构成一个第二估计动作集; S33、 N个设备的设备运作系统模型执行k组第一估计动作 集和第二估计动作集, 每个设 备一一对应的执行k组第一估计动作集中的一个第一估计动作和 第二估计动作集中的一个 第二估计动作; 然后每个设备均向前推测p步, 获得k组p步后的时段内的所有设备平均能效 比 和总用电量Qj[K+p], j=1,2, ..., k, 选出最大所有设备平均能效比 和最小总用电量 Qmin[K+p]; S34、 比较最大所有设备平均能效比 对应的各设备的第二奖励信号的平 均值和最小总用电量 Qmin[K+p]对应的各设备的第二奖励信号的平均值; S35、 若不相等, 则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均 能效比 对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对 应的各设备的第二奖励信号的平均值中较大的值所对应的动作集; S36、 若相等, 则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+ p]对应的各设备的第二奖励信号的平均值所对应的动作集; S37、 执行第一实际动作 集和第二实际动作 集, 针对设备i得到下一时段第一状态 和 对应的第一奖励信号的值 下一时段第二状态 和对应的第二奖励信号的值 并将 当前第一状态 更新为下一时段第一状态 当前第二状态 更新为下一时段第二状态 所有设备均完成更新; S38、 以最大化 折扣累积奖励为优化目标进行迭代, 得到园区各设备的最优化配置 。 2.根据权利要求1所述的方法, 其特征在于, 所述神经网络模型具有一个输入层、 一个 或两个以上隐含层和一个输出层。 3.根据权利要求1所述的方法, 其特征在于, 所述第一Actor网络、 第二Actor网络和 Critic网络均由若干层的全连接层网络构成。 4.一种基于强化学习的园区 能效提升的设备优化配置系统, 其特 征在于, 包括: 设备运作系统模型构建装置, 用于以园区各设备电参数及 设备所用配电线路性 能参数 为神经网络模型的输入输出参数, 构建 设备运作系统模型; 智能体模型构建装置, 用于针对设备i, 根据设备电参数及设备所用配电线路性能参 数, 搭建基于DDPG的具有双Actor网络的低碳管控智能体, 双Actor网络的部分状态变量相 同; 配置优化装置, 用于对设备运作系统模型, 利用园区低 碳管控智能体进行计算, 求解获权 利 要 求 书 2/4 页 3 CN 114240192 B 3

.PDF文档 专利 基于强化学习的园区能效提升的设备优化配置方法及系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的园区能效提升的设备优化配置方法及系统 第 1 页 专利 基于强化学习的园区能效提升的设备优化配置方法及系统 第 2 页 专利 基于强化学习的园区能效提升的设备优化配置方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:08:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。