全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111647888.4 (22)申请日 2021.12.3 0 (71)申请人 河海大学 地址 210024 江苏省南京市 鼓楼区西康路1 号 (72)发明人 娄渊胜 赵润发 (51)Int.Cl. G06K 9/62(2022.01) (54)发明名称 一种基于工业流数据的设备故障诊断方法 (57)摘要 本发明公开了一种基于工业流数据的设备 故障诊断的方法, 包括如下步骤: 首先提出一套 流数据Random Forest(随机森林)算 法设备故障 诊断的框架, 利用Flink实现了Random Forest算 法的并行化; 然后利用Flink对初始数据进行数 据清洗去除其噪声, 得到预处理后的训练集和测 试集; 接着构建随机森林(Rando m Forest)模型, 对正常数据和已知异常数据进行分类, 根据多个 决策树投票选出出现故障的属性。 由于随机森 林 会出现过拟合 现象, 所以引进Earl y Stopping技 术, 解决随机森林算法所产生的过拟合问题。 最 后利用训练集进行测试验证, 计算出测试集相对 于原始数据集的精度和运行效率。 本发明为现代 工业提供了一种分布式设备故障诊断的方法, 极 大地提高了工业生产效率, 工业场景下的设备故 障诊断对工业 运作具有重要的指导 意义。 权利要求书1页 说明书4页 附图1页 CN 114154594 A 2022.03.08 CN 114154594 A 1.一种基于 工业流数据的设备故障诊断的构建方法, 其特 征在于, 包括如下步骤: 步骤1: 利用Flink将测试数据传入到Kafka工业流数据消息管道中, Kafka保证数据传 输的局部有序性, 同时起到一定的削峰作用; 步骤2: Flink消费Kafk a中的数据, 对原始数据进行去重并去除和预期差异较大的无效 数据; 同时Flink具有滚动窗口机制, 处理器在每个窗口中运行一个随机森林检测模型, 窗 口中会保存活动点和其元 数据, 实现算法的并行化; 步骤3: 构建单个决策树。 预处理后的数据集为D, 从根节点开始, 计算数据集D的基尼系 数。 如果样本个数小于阈值或者基尼系数小于阈值, 则返回决策树子树, 当前节点停止递 归。 若上述满足条件, 在计算出来的基尼系 数中, 选择基尼系 数最小的特征A和对应的特征 值a。 根据最优特征和最优特征值, 把D划分成两部分D1和D2, 同时建立当前节点的左右节 点, 左节点的数据集D为D1, 右节点的数据集D为D2。 对左右的子节点递归的调用以上步骤, 生成单个决策树; 步骤4: 针对数据集D抽样b次并放回, 当b小于等于数据集D的个数m时得到一个子集, 该 子集作为 新的训练集。 重复上述方式抽样C次, 得到 C个随机采样集; 步骤5: 根据C个随机采样集, 分别构建步骤3的决策树。 增加随机抽取属性的步骤, 在当 前节点包含的d个属性中随机抽取c个属性(c≤ d), 从含有c个属性的属性子集中选取最优 属性进行划分, 在建立决策树时, 不对决策树进行剪枝加工处 理; 步骤6: 针对C棵决策树输出各自结果, 根据相对多数投票法原 理, 对所有决策树模型的 输出结果进行投票, 选择出票数最多的输出结果作为 随机森林模型 的输出结果, 即为出现 异常的设备属性; 步骤7: 采用深度学习中的Early stopping(早停法), 在每一轮训练数据遍历结束 (Epoch)时计算验证数据集的准确率, 若准确率不再提高, 此时便可停止迭代, 并更新步骤 3‑6中的模型; 步骤8: 将上述训练出来的结果与实际数据比对, 计算出识别设备故障的精度。 2.如权要求1所述的基于工业流数据的设备故障诊断方法, 其特征在于, 步骤2中采用 Flink自带的Rock sDB状态后端去重方式对工业大数据集去重, 利用Flink DataStream API 的Evictor()方法去除无效数据。 3.如权要求1所述的基于工业流数据的设备故障诊断方法, 其特征在于, 所述步骤3 中, 对于基尼系数的公式为: 其中K为类别个数, Pk为第k个类别的概率, Gini指数可用来确定某个特征的最优切分 点。 4.如权要求1所述的基于工业流数据的设备故障诊断方法, 其特征在于, 所述步骤6 中, 采用相对多数投票法原理, 组合多个决策树, 能够准确输出工业中出现异常的数据。 5.如权要求1所述的基于工业流数据的设备故障诊断方法, 其特征在于, 所述步骤7中, 采用“No‑improvement ‑in‑n”策略, 在训练的过程中, 记录到目前为止最好的验证集精度, 当连续10次Epoch(或者更多次)没达到最佳精度时, 则可以认为精度不再提高了, 停止迭代。权 利 要 求 书 1/1 页 2 CN 114154594 A 2一种基于工 业流数据的设 备故障诊断方 法 技术领域 [0001]本发明涉及 一种基于大数据和机器学习的工业设备故障诊断模型的构建方法, 具 体来说, 将Flink大数据技术和机器学习中的随机森林算法相结合, 并针对随机森林的缺点 加以改进引入Early stopping技术, 对工业设备进行诊断。 背景技术 [0002]现在人类进入工业大数据时代, 设备故障诊断在工业系统中显得愈发重要。 提前 诊断出工业设备问题, 并根据其使用情况进 行规划和安排, 能够大大降低突 发情况的出现, 同时也能够降低运营成本, 提高企业自身的竞争力。 工业系统中数据量大, 且包含较多噪声 因素, 传统的故障诊断模型Ran dom Forest对工业大数据并不 “友好”, 且故障诊断率、 准确 率都较低, 同时会出现过拟合现象, 具有一定的局限性。 因此应采用多种模型形成的故障诊 断方法, 并和大数据技术相结合来克服单种方法的缺点。 因此, 结合多种模型和大数据技术 形成的方法将成为工业系统中设备故障诊断的方向。 发明内容 [0003]发明目的: 针对当前工业大数据规模大、 类型杂、 噪声多的特点, 且传统单一设备 诊断方法不具有针对性、 预测精确度低的缺点, 利用Flink对工业大数据进 行预处理并实现 算法的并行化, 且采用随机森林模型和Early stopping相结合的方法对设备故障进行诊 断, 提高设备故障诊断的准确性。 [0004]技术方案: 一种基于Random Forest‑Early Stopping的设备故障诊断方法, 利用 Java作为编程语言构建三个模块, 分别是Flink预处理模块、 Random Forest建模模块、 Early Stopping去过拟合模块。 因为工业大数据噪声多、 无效数据多, 所以先用Flink对工 业大数据进行预处理, 并通过Flink的滚动窗口实现Random Forest算法的并行化, 提高方 法的效率; 接着构建随机森林模型, 对正常数据和已知异常数据进 行分类, 根据异常数据分 布特征判断故障数据。 然后采用Ear ly stopping方法解决随机森林可能会 出现的过拟合现 象, 并更新 随机森林模型。 最终利用训练集进行测试验证, 计算出故障诊断算法的精度。 包 括如下步骤: [0005]步骤1: 利用Flink将测试数据传入到Kafka工业流数据消息管道中, Kafka保证数 据传输的局部有序性, 同时起到一定的削峰作用。 [0006]步骤2: Flink消费Kafka中的数据并利用自带的RocksDB状态后端去重方式对测试 数据去重。 然后利用Flink DataStre am API的Evictor()方法去除和预期差异较大的无效 数据; 同时Flink具有滚动窗口机制, 处理器在每个窗口中运行一个随机森林检测算法, 窗 口中会保存活动点和其元 数据, 实现算法的并行化。 [0007]步骤3: 构建单个决策树。 当前节点预处理后的数据集为D, 从根节点开始, 计算数 据集D的基尼系数, 公式如下:说 明 书 1/4 页 3 CN 114154594 A 3
专利 一种基于工业流数据的设备故障诊断方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 04:42:17
上传分享
举报
下载
原文档
(343.1 KB)
分享
友情链接
ISO 13281-2 2000 Industrial automation systems and integration — Manufacturing Automation Programming Environment (MAPLE) — Part 2 Services and interfaces.pdf
ISO 13216-3 2018 Road vehicles Anchorages in vehicles and attachments to anchorages for child restraint systems Part 3 Classification of child restraint system and space in vehicle.pdf
ISO 9349 2017 Ductile iron pipes, fittings, accessories and their joints — Thermal preinsulated products.pdf
ISO 22477-10 2016 Geotechnical investigation and testing Testing of geotechnical structures Part 10 Testing of piles rapid load testing.pdf
ISO 13041-1 2020 Test conditions for numerically controlled turning machines and turning centres — Part 1 Geometric tests for machines with horizontal workholding spindle(s).pdf
ISO IEC 29192-6 2019 Information technology — Lightweight cryptography — Part 6 Message authentication codes (MACs).pdf
ISO 20942 2019 Leather — Full chrome upper leather — Specification and test methods.pdf
ISO 29993 2017 Learning services outside formal education — Service requirements.pdf
ISO 13431 2024 Geotextiles and geotextile-related products Determination of tensile creep and creep rupture behaviour.pdf
ISO 1014 2021 Coke — Determination of true relative density, apparent relative densit.pdf
GB-T 13866-1992 振动与冲击测量 描述惯性式传感器特性的规定.pdf
GB-T 5858-1997 重载传动用弯板滚子链和链轮.pdf
GB-T 623-2011 化学试剂 高氯酸.pdf
GB-T 22454-2008 企业集成 企业建模构件.pdf
GB-T 2900.96-2015 电工术语 计算机网络技术.pdf
GB-T 43593-2023 铁氧体磁心 有气隙磁心的标准电感因数及其公差.pdf
GB-T 6694-1998 氰戊菊酯原药.pdf
GB-T 44035-2024 影像材料 彩色照片 户外影像稳定性的评价方法.pdf
GB-T 3804-2017 3.6 kV~40.5 kV高压交流负荷开关.pdf
GB-T 3965-2012 熔敷金属中扩散氢测定方法.pdf
1
/
3
7
评价文档
赞助2元 点击下载(343.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。