全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111297960.5 (22)申请日 2021.11.04 (71)申请人 佳源科技股份有限公司 地址 210000 江苏省南京市雨 花台区宁双 路19号云密城14-17层 (72)发明人 马培龙 孙坚  (74)专利代理 机构 苏州中合知识产权代理事务 所(普通合伙) 32266 代理人 阮梅 (51)Int.Cl. G06Q 10/00(2012.01) G06Q 50/06(2012.01) G06F 16/906(2019.01) G06F 16/2458(2019.01) G06N 20/00(2019.01)G06Q 10/04(2012.01) (54)发明名称 一种基于日志特征智能挖掘的电力系统异 常监测方法 (57)摘要 本发明公开一种基于日志特征智能挖掘的 电力系统异常监测方法, 包括如下步骤: 采集多 时间跨度多场景下的日志数据并进行预处理后, 形成日志数据样本; 基于DBSCAN聚类算法对日志 数据样本进行聚类分析, 获取聚类结果, 并采用 Pearson相 关系数对聚类结果进行筛选, 得到日 志数据样 本中的异常日志; 利用自然语 言处理技 术对异常日志文本进行解析, 将解析后的内容反 馈至相关工作人员。 本发明将基于机器学习聚类 算法和自然语 言处理技术, 针对业务场景特点与 原算法缺陷对算法进行改进, 使得全流程无需人 工干预, 自动化分析日志信息, 提升异常检测性 能, 能够有效实现异常电力检测, 提升电力稽查 自动化程度和稽查效率并节省人力物力。 权利要求书2页 说明书10页 附图1页 CN 114048870 A 2022.02.15 CN 114048870 A 1.一种基于日志特 征智能挖掘的电力系统异常监测方法, 其特 征在于, 包括如下步骤: 步骤S1, 采集多时间跨度多场景 下的日志数据并进行 预处理后, 形成日志数据样本; 步骤S2, 基于DBSCAN聚类算法对日志数据样本进行聚类分析, 获取聚类结果, 并采用 Pearson相关系数对聚类结果进行筛 选, 得到日志数据样本中的异常日志; 步骤S3, 利用自然语言处理技术对异常日志文本进行解析, 将解析后的异常日志概要 反馈至相关工作人员。 2.根据权利要求1所述的一种基于日志特征智能挖掘的电力系统异常监测方法, 其特 征在于, 所述 步骤S1, 具体包括如下步骤: 步骤S101, 从平台 中选取近T年的电力日志数据, 其中, T为 不小于1的整数; 步骤S102, 基于季节筛选数据, 按照春、 夏、 秋、 冬四季划分, 采集每个季节中选出两个 月的电力日志数据; 基于时间段筛选数据, 采集早、 晚不同时间段的电力日志数据; 基于节 假日筛选数据, 采集节假日和大型活动时期的电力日志数据; 基于市县间的地区差异筛选 数据, 采集城区和乡镇农村的电力日志数据; 基于地区功能特点筛选数据, 采集工业区、 居 民区和商业区的电力日志数据; 步骤S103, 将步骤S102中采集到的日志数据打乱并整合, 创建最终的日志数据样本 。 3.根据权利要求1所述的一种基于日志特征智能挖掘的电力系统异常监测方法, 其特 征在于, 所述 步骤S2, 具体包括如下步骤: 步骤S201, 计算日志数据样本中各 数据点间的欧氏距离; 步骤S202, 将获取的欧式距离结果按照升序进行排序, 构建距离矩阵; 步骤S203, 以列为单位计算矩阵平均值, 得到平均距离向量, 随机选取簇中一个未标记 的日志样本点, 将所述未标记的日志样本点的平均距离 向量内的值作为ε ‑近邻的候选值; 利用生成的每一个候选值计算出在 ε ‑近邻内包含的数据点个数, 对 各个邻域内的数据点个 数取均值, 建立 ε ‑近邻与密度阈值Mi npts的候选集; 步骤S204, 使用候选集 参数进行DBSCAN聚类, 并计算聚类结果的轮廓系数; 步骤S205, 重 复步骤S201~步骤S204, 评估不同候选参数下聚类结果的轮廓系数, 确定 最优聚类结果; 步骤S206, 采用Pearson相关系数对聚类结果进行筛选, 获取日志数据样本中的异常 日 志。 4.根据权利要求1或3所述的一种基于日志特征智能挖掘的电力系统异常监测方法, 其 特征在于, 所述预处理包括噪声数据剔除、 重复数据处理、 数值型缺失值处理、 类别型特征 编码、 数值标准 化和日志文本类数据处 理。 5.根据权利要求4所述的一种基于日志特征智能挖掘的电力系统异常监测方法, 其特 征在于, 所述类别型特征编码包括one ‑hot编码方式或频率编码方式; 所述标准化采用min ‑ max标准化方式。 6.根据权利要求1所述的一种基于日志特征智能挖掘的电力系统异常监测方法, 其特 征在于, 所述 步骤S3, 具体包括如下步骤: 步骤S301, 提取日志数据样本内的错 误日志中的所有词, 构建异常 关键词特 征集合; 步骤S302, 计算异常 关键词的信息增益 值IG, 具体计算公式为:权 利 要 求 书 1/2 页 2 CN 114048870 A 2其中, 表示yi类别文本在数据集中出现的概率, 即yi类别文本数除以总的文本数, yi 类别文本为信息日志 文本或错误日志 文本; 表示数据集中包含关键词特征项xi的文本的 概率, 即包含特征项xi的文本数除以总的文本数; xi表示不包含关键词特征项xi的文本; p (yi|xi)表示文本包含关键词特征项xi时属于yi类别的条件概率, 即包含关键词特征项xi且 属于类别yi的文本数除以包 含关键词特 征xi的文本数; 步骤S303, 将计算得到的异常关键词的信息增益值结合到TF ‑IDF算法中, 得到改进后 的TF‑IDF计算公式: 若异常关键词存在日志中, 则使用改进的权重计算公式ωnew, 计算特征项权重值, 否则 按传统权重计算 公式ω计算, 其中, t表示文本中特征项, A表 示错误日志关键词集合, B表 示 电力日志文本, ω表示特 征项t在文本d中的权 重值, 表示异常 关键词的信息增益 值; 步骤S304, 根据步骤S303中计算出的特征项权重值对所有的异常关键词进行排序, 选 取权重值最高的若干个异常 关键词集 合构成异常日志概要, 并发送至相关工作人员。权 利 要 求 书 2/2 页 3 CN 114048870 A 3

.PDF文档 专利 一种基于日志特征智能挖掘的电力系统异常监测方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于日志特征智能挖掘的电力系统异常监测方法 第 1 页 专利 一种基于日志特征智能挖掘的电力系统异常监测方法 第 2 页 专利 一种基于日志特征智能挖掘的电力系统异常监测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:59:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。