说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111144129.6 (22)申请日 2021.09.28 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 孙铭阳 万旭 曾兰婷 邓瑞龙  程鹏  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 代理人 刘静 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/06(2012.01)G06F 111/04(2020.01) (54)发明名称 针对电网紧急控制系统中深度强化学习模 型的脆弱性评估方法 (57)摘要 本发明公开了一种针对电网紧急控制系统 中深度强化学习模型的脆弱性评估 方法。 通过利 用深度强化学习算法作为电网紧急控制系统的 决策算法, 首先训练出奖励函数收敛的训练模 型, 之后设计了三种基于梯度的白盒攻击算法对 训练模型的输入样本进行攻击, 攻击算法通过利 用模型梯度信息制作不易察觉的对抗样本, 使紧 急控制系统决策错误, 具体表现为电压恢复缓 慢, 控制系统提前中止。 最后, 本发明还提出一系 列统一的脆弱性评估指标, 对于电网紧急控制系 统中应用深度强化学习算法的模 型, 都可以使用 这些指标了解其模型脆弱性水平, 为实际系统应 用该模型的安全性 提供保障。 权利要求书3页 说明书6页 附图4页 CN 113947016 A 2022.01.18 CN 113947016 A 1.一种针对电网紧急控制系统中深度强化学习模型的脆弱性评估方法, 其特征在于, 该方法包括如下步骤: S1: 使用电力系统中的总线电压、 总线负载信息构造观测状态变量, 并将t时刻及t时刻 前最近x个仿真时间步长的观测状态叠加起来作为深度强化学习在t时刻的输入St, St= {st‑x, st‑x‑1, ..., st‑1, st}, 其中时刻t对应的观测状态st包括观测总线的电压信息Vt和控制 总线的剩余负载信息PDt; S2: 定义深度强化学习的决策动作a为控制总线上的减载百分比, 并设计电力系统紧急 控制策略奖励函数r; S3: 基于特定深度强化学习算法和定义的状态S、 动作a、 奖励r, 在电网紧急控制系统中 训练深度强化学习智能体进行决策, 并得到奖励函数收敛的训练模型πθ; S4: 随机设置电网紧急控制系统停电时间和停电位置, 并定义对抗攻击算法的目标优 化函数D: D=f(S′, a)+g(S′, S) 其中, f(S ′, a)表示对抗攻击算法的有效性指标函数, 该函数与对抗样本S ′及智能体决 策动作a有关; g(S ′, S)表示对抗样 本隐蔽性指标函数, 即对抗样 本S′与真实样 本的差异; 完 善的对抗攻击算法既要最大化攻击的有效性指标函数, 又要降低对抗样本与原始样本的差 异, 提高攻击隐蔽性; S5: 导入深度强化学习训练模型πθ, 并初始化观测状态S0; 在观测时刻t, 若该时刻 并非 攻击时刻, 则根据训练模型πθ选择动作at, 并和环境交互得到次态St+1; 若该时刻为攻击时 刻, 则需要对次态St+1添加扰动, 形成对抗样本, 根据设计的不同攻击算法, 对抗样 本制作有 所不同, 但其回合 终止条件均为目标优化函数D小于 设定阈值γ或达到最大迭代回合, 并得 到该时刻的对抗样本S ′t+1; S6: 将电网紧急控制系 统在对抗攻击前后的观测总线电压值V、 V ′进行输出对比, 同时 计算对抗攻击前后的回合奖励值 R、 R′, 并基于此设计深度强化学习模 型在电网紧急控制系 统中的脆弱性指标, 若对抗攻击后的回合奖励值越小, 则对抗攻击效果越显著, 该深度强化 学习模型越脆弱; 若对抗样本与原 始样本的均方误差越小, 则对抗 攻击隐蔽性越强。 2.根据权利要求1所述的针对电网紧急控制系统中深度强化学习 模型的脆弱性评估方 法, 其特征在于, 所述S4、 S5中, 基于快速梯度下降算法制作对抗样本, 步骤如下: S41: 选取停电事故消除后的时刻作为攻击开始时刻, 以系统中断时刻或回合结束时刻 作为攻击结束时刻; S42: 定义以快速梯度下降算法作为对抗 攻击算法的目标优化 函数D: D=Qθ(S′, a) 其中, S′表示对抗攻击制造的对抗样本, Qθ(S′, a)表示在训练模型πθ的动作策略下, 对 抗样本S′执行动作a的价 值函数; S51: 沿着D对St+1的梯度下降方向 进行搜索, 对 对抗样本S ′t+1进行更新: 其中, ε1为扰动幅度, sign( ·)为符号函数, 该目标优化函数的攻击隐蔽性约束体现在 对计算的梯度值进行符号化和扰动大小约束, 同时为了保证对抗样本仍然 具有实际物理意权 利 要 求 书 1/3 页 2 CN 113947016 A 2义, 在S′t+1计算后设计一层过滤层, 将对抗样本中的状态值限制在其对应物理含义的合理 范围内; S52: 利用t+1时刻的对抗样本S ′t+1继续与深度强化学习智能体交互, 制作下一时刻的 对抗样本, 直至整个回合结束。 3.根据权利要求1所述的针对电网紧急控制系统中深度强化学习 模型的脆弱性评估方 法, 其特征在于, 所述S4、 S5中, 基于雅可比矩阵制作对抗样本, 步骤如下: S41: 选取停电事故消除后的时刻作为攻击开始时刻, 以系统中断时刻或回合结束时刻 作为攻击结束时刻; S42: 定义基于雅可比矩阵的对抗 攻击算法的目标优化 函数: 其中, N为动作的维度, ai表示决策动作在第i个维度上的动作值, Di为第i个维度的目标 优化函数; 由于决策动作 始终为0时电网紧急控制系统会提前中止, 故以各个维度上的动作 值降低为0作为优化目标; S51: 计算目标优化 函数Di对状态S的雅可比矩阵: 其中, M为状态 矩阵S的维度; S52: 根据雅可比矩阵构造对抗显著图G(S, target): 当某个输入维度i对指定控制总线target上的动作具有正向的影响, 即 且对 其他控制总线动作影响之和为负, 即 计算该维度对动作的影响大小, 即 反之, 将该维度对动作的影响大小设为0; 对抗显著图的目的即找出 对指定控制总线target影响最大的输入维度, 并对其添加扰动使智能体产生 错误决策; S53: 使用对抗显著图计算的影响大小挑选需要添加扰动的输入维度对(p1, p2): S54: 对次态St+1中的维度对(p1, p2)添加扰动 ε2: S′t+1[p1]=St+1[p1]+ ε2 S′t+1[p2]=St+1[p2]+ ε2权 利 要 求 书 2/3 页 3 CN 113947016 A 3

.PDF文档 专利 针对电网紧急控制系统中深度强化学习模型的脆弱性评估方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 针对电网紧急控制系统中深度强化学习模型的脆弱性评估方法 第 1 页 专利 针对电网紧急控制系统中深度强化学习模型的脆弱性评估方法 第 2 页 专利 针对电网紧急控制系统中深度强化学习模型的脆弱性评估方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:46:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。