全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111526724.6 (22)申请日 2021.12.14 (71)申请人 中核武汉 核电运行技 术股份有限公 司 地址 430223 湖北省武汉市东湖新 技术开 发区民族大道1021号 (72)发明人 李敏 程敏敏 何栓 景应刚  (74)专利代理 机构 核工业专利中心 1 1007 代理人 王朋 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2455(2019.01) G06Q 50/06(2012.01) (54)发明名称 工业数据质量管理方法及装置 (57)摘要 本公开属于核电技术领域, 具体涉及一种工 业数据质量管理方法及装置。 本公开所示的一种 工业数据质量管理方法, 在数据加工阶段进行数 据清洗, 然后针对不同数据类型表现出来的数据 质量问题建立数据质量稽核规则库, 对数据结果 进行校验, 同时进行数据质量监控, 对可能产生 的问题进行及时预警, 以实现数据全生命周期的 质量稽核与质量监控, 保障数据的完整性、 准确 性、 一致性、 及时性。 权利要求书2页 说明书12页 附图3页 CN 114356902 A 2022.04.15 CN 114356902 A 1.一种工业数据质量管理方法, 其特 征在于, 所述方法包括以下步骤: S1依照预设规则对 采集数据进行 数据清洗, 获取清洗数据结果; S2依据数据类型、 数据加工环节建立对应的数据稽查规则, 并根据所述稽查规则对所 述清洗数据结果进行 校验; S3在进行 校验的过程中进行 数据质量 监控, 对数据质量 监控监测到的问题进行 预警。 2.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S1包括: S11判断所述采集数据是否需要清洗, 若确定所述采集数据需要清洗则转入步骤S12, 若确定所述采集数据不需要清洗, 则转入步骤S15; S12判断所述采集数据是否为严重脏数据, 若确定所述采集数据 是严重脏数据, 则转入 步骤S13; 若确定所述采集数据不是严重 脏数据, 则转入步骤S14; S13过滤去除所述采集数据, 并结束本次流 程; S14依据预设规则对所述采集数据进行 数据清洗; S15输出符合要求的数据。 3.根据权利要求2所述的方法, 其特 征在于, 所述预设规则包括: S141缺失值清洗清洗, 用于去除或补全有缺失的数据; S142格式 内容清洗, 用于去除或修改格式和内容 错误的数据; S143逻辑错误清洗, 用于去除或修改逻辑 错误的数据; S144冗余数据清洗, 用于过 滤去除冗余数据; S145关联性验证, 用于对于有 多个数据来源的信息进行关联性验证。 4.根据权利要求3所述的方法, 其特 征在于, 所述 步骤S141包括: S1411获取每个字段的缺失值比例及字段重要性; S1412依据缺失比例和字段重要性对各个字段进行填充。 5.根据权利要求1所述的方法, 其特 征在于, 步骤S2还 包括: 获取清洗的数据, 依据 数据类型、 数据加工环节建立对应的数据稽查规则, 并根据 所述 稽查规则对数据结果进行 校验; 若校验通过, 则判断数据质量无问题, 结束流 程; 若校验失败, 则转入步骤S3 。 6.一种工业数据质量管理装置, 其特 征在于, 所述装置包括: 清洗模块, 用于依照预设规则对 采集数据进行 数据清洗, 获取清洗数据结果; 校验模块, 用于依据 数据类型、 数据加工环节建立对应的数据稽查规则, 并根据 所述稽 查规则对所述清洗数据结果进行 校验; 预警模块, 用于在进行校验的过程中进行数据质量监控, 对数据质量监控监测到的问 题进行预警。 7.根据权利要求6所述的装置, 其特 征在于, 所述清洗模块包括: 第一判断模块, 用于判断所述采集数据是否需要清洗, 若确定所述采集数据需要清洗 则转入第二判断模块, 若确定所述采集数据不需要清洗, 则转入输出模块; 第二判断模块, 用于判断所述采集数据是否为严重脏数据, 若确定所述采集数据是严 重脏数据, 则转入过 滤模块; 若确定所述采集数据不是严重 脏数据, 则转入处 理模块; 过滤模块, 用于过 滤去除所述采集数据, 并结束本次流 程; 处理模块, 用于依据预设规则对所述采集数据进行 数据清洗;权 利 要 求 书 1/2 页 2 CN 114356902 A 2输出模块, 用于 输出符合要求的数据。 8.根据权利要求7 所述的装置, 其特 征在于, 所述预设规则包括: 缺失值清洗, 用于去除或补全有缺失的数据; 格式内容清洗, 用于去除或修改格式和内容 错误的数据; 逻辑错误清洗, 用于去除或修改逻辑 错误的数据; 冗余数据清洗, 用于过 滤去除冗余数据; 关联性验证, 用于对于有 多个数据来源的信息进行关联性验证。 9.根据权利要求8所述的装置, 其特 征在于, 所述 缺失值清洗包括: 获取每个字段的缺失值比例及字段重要性; 依据缺失比例和字段重要性对各个字段进行填充。 10.根据权利要求6所述的装置, 其特 征在于, 所述校验 模块还包括: 获取模块, 用于获取清洗的数据, 依据 数据类型、 数据加工环节建立对应的数据稽查规 则, 并根据所述稽查 规则对数据结果进行 校验; 结束模块, 用于在校验通过的情况 下, 判断数据质量无问题, 结束流 程; 转入模块, 用于在校验失败的情况 下, 转入预警模块。 11.一种工业数据质量管理装置, 其特 征在于, 所述装置包括: 处理器; 用于存储处理器可执行指令的存 储器; 其中, 所述处 理器被配置为执 行权利要求1至 5中任意一项所述的方法。 12.一种非易失性计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 所 述计算机程序指令被处 理器执行时实现权利要求1至 5中任意一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114356902 A 3

.PDF文档 专利 工业数据质量管理方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 工业数据质量管理方法及装置 第 1 页 专利 工业数据质量管理方法及装置 第 2 页 专利 工业数据质量管理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:09:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。