(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111611170.X
(22)申请日 2021.12.27
(71)申请人 杭州百富电子技 术有限公司
地址 310018 浙江省杭州市杭州经济技 术
开发区12号大街5 00号
(72)发明人 许承刚 王佳乐 梁广伟 卢旭朝
邵全宇 吴旭红
(74)专利代理 机构 杭州中成专利事务所有限公
司 33212
代理人 金祺
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/08(2006.01)
G06Q 50/06(2012.01)
(54)发明名称
一种电力系统中的数据异常检测方法
(57)摘要
本发明公开了一种电力系统中的数据异常
检测方法, 包括从电网服务器中采集用户的原始
数据Z, 进行数据预处理, 然后输入训练好的随机
森林进行推断获得是否为异常数据的决策结果;
数据预处理包括先对原始数据Z进行归一化处
理, 获得数据znew, 再对数据znew进行主成分分析
PCA进行降维处理; 随机森林训练过程为: 从电网
服务器中采集用户数据, 进行所述数据预处理获
得数据集Y, 然后将数据集Y使用孤立森 林进行训
练, 选取可能性大于60%的异常点进行人工标
记, 作为训练数据集来训练随机森林。 本发明通
过对数据进行预处理, 在不降低异常数据判断的
准确性的前提下, 大 大加快了数据处 理速度。
权利要求书2页 说明书7页 附图2页
CN 114358160 A
2022.04.15
CN 114358160 A
1.一种电力系统中的数据异常检测方法, 其特 征在于包括如下 过程:
从电网服务器中采集用户的原始数据Z=[z1,z2,z3,…,zi,…,z300], 进行数据 预处理,
然后输入训练好的随机森林进行推断获得 是否为异常数据的决策 结果;
所述数据预处理包括先对原始数据Z进行归一化处理, 获得数据
再对数据znew进行主成分 分析PCA进行降维处 理;
所述随机森林训练过程为: 从电网服务器中采集用户数据, 进行所述数据预处理获得
数据集Y, 然后将数据集Y使用孤立森林进行训练, 选取可能性大于60%的异常点进行人工
标记, 作为训练数据集 来训练随机森林。
2.根据权利要求1所述的一种电力系统中的数据异常检测方法, 其特 征在于:
所述归一 化处理为:
其中, Zi_new是归一化之后的数据, zi是原始数据, i∈(1,3 00), inew∈(1,300)。
3.根据权利要求2所述的一种电力系统中的数据异常检测方法, 其特 征在于:
所述主成分 分析PCA)处 理的具体过程如下:
1)、 每个特征都减去各自平均值:
其中,
为zi_new的平均值,
2)、 采用特 征值分解的方法计算协方差矩阵
的特征值 λ和特 征向量ξ:
令| λE‑C|=0 (公式4)
其中, λ为特 征值的大小、 E为C对应的单位矩阵, 通过矩阵行列式计算方法化简为:
( λ‑λ1)( λ‑λ2)……( λ‑λi)=0 (公式3)
其中λi表示公式3因式分解得到的计算结果, 为常数;
将所有特 征值中最大的3 0个特征值选出, 记作 λ1, λ2, λ3, λ4, λ5……λ30;
3)、 将λ1, λ2, λ3, λ4, λ5……λ30分别代入λ和公式4; 根据线性方程组求解得出最大的30个
特征值 λ对应的特 征向量ξ =[ ξ1, ξ2, ξ3……ξ30];
4)计算归一 化后的数据zi_new降低维度后的数据集Y为:
Y=ξ zi_new (公式5)。
4.根据权利要求3所述的一种电力系统中的数据异常检测方法, 其特 征在于:
所述孤立森林进行训练的过程 为:
1)、 通过电力服务商服务器采集用户的历史数据和电力系统的异常电表历史数据, 数
据维度为3 00维, 对所有数据进行 所述归一 化处理和所述主成分 分析PCA处 理获得数据集Y;
2)、 构建孤立森林
随机选取数据集Y一个维度的一个值作为选取值, 然后对数据集Y中的每条记录与选取
值进行对比, 大于或等于选取值的放入右子树, 小于选取值的放入左子树; 递归构造左子树
和右子树, 直到传入的数据集Y只有一条记录或者条 数大于1的同一个记录;
然后设置树的数量 为100, 样本采样量 为256, 进行树的构建, 并计算异常 分数S(x,n):权 利 要 求 书 1/2 页
2
CN 114358160 A
2其中, h(x)为生成树的高度, x为数据集Y中随机维度的一个值, n为样本大小, ε为欧拉
常数, E(h(x))表示h(x)的均值, c(n)表示给定数量为n的样 本得到路径长度的平均值, H(k)
为调和数:
H(k)=ln(k)+ ε (公式8)
其中, k为变量, 通过 给定k的值 就能得出h(k);
最后, 挑出异常分数S(x,n)值大于0.6对应的数据 集Y中的记录, 人工标注为异常数据;
标记完成后的训练数据集中包括 正常数据和异常数据, 均 作为所述随机森林训练的输入。
5.根据权利要求 4所述的一种电力系统中的数据异常检测方法, 其特 征在于:
训练所述随机森林的过程 为:
1)、 构建单决策树:
令单棵决策树的输入样例的个数为51908个, 从所述孤立森林进行训练获得的训练数
据集中有放回的随机抽取5000个训练样例; 取特征输入, 采 取特征的维度为30, 在选取好的
特征中使用随机函数来进 行特征进一步选取, 选取2个被随机选取的特征进行决策树分裂;
重复执行直到选取的5000个训练样例为同一个种类; 最后生成128棵 单决策树;
2)、 构建随机森林
将所述128颗单决策树进行的结果进行统计, 取单棵树分类结果最多的类别作为整个
随机森林的分类结果;
3)、 数据测试
将所述训练数据集分成五份, 通过K折交叉验证方法对随机森林进行测试, K=5, 从而
获得所述训练好的随机森林。权 利 要 求 书 2/2 页
3
CN 114358160 A
3
专利 一种电力系统中的数据异常检测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:56:23上传分享