说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210922074.5 (22)申请日 2022.08.02 (71)申请人 上海工业自动化仪表研究院有限公 司 地址 200233 上海市徐汇区漕宝路10 3号 (72)发明人 郑佳佳 朱连凯  (74)专利代理 机构 苏州所术专利商标代理事务 所(普通合伙) 32473 专利代理师 孙兵 (51)Int.Cl. G06F 16/215(2019.01) G06F 9/445(2018.01) (54)发明名称 一种基于spark可配 置自动清洗数据方法 (57)摘要 本发明提供一种基于spar k可配置自动清洗 数据方法, 涉及数据预处理技术领域。 该方法包 括: 在数据库中创建各个业务的特殊格式表、 数 据格式规则表及数据格式映射表; 使用前端技术 构建数据清洗配置页面; 将前端配置的内容存入 数据库中; 创建spark清洗任务, 清洗任务读取特 殊格式表已经业务对应的数据格式规则表、 数据 格式映射表; spark任 务加载要清洗的数据, 对数 据进行清洗。 通过定义前台功能, 使开发者能够 自己定义格式及格式映射规则, 对于不同业务数 据进行清洗, 开发者只需要通过前台配置的方式 来完成各种业务字段的清洗规则, 避免了数据清 洗中的大量反复开发工作, 极大的提高了开发效 率。 权利要求书1页 说明书9页 附图2页 CN 115269579 A 2022.11.01 CN 115269579 A 1.一种基于spark可配置自动清洗数据方法, 其特 征在于, 所述方法包括: 在数据库中创建各个业 务的特殊格式表、 数据格式规则表及数据格式映射表; 使用前端技 术构建数据清洗配置页面; 将前端配置的内容存 入数据库中; 创建spark清洗任务, 清洗任务读取特殊格式表已经业务对应的数据格式规则表、 数据 格式映射表; spark任务加载要清洗的数据, 对数据进行清洗, 在清洗过程中, 如果数据中的目标字 段不能匹配数据格式规则表中的格式规则, 则过滤该数据, 如果数据中的目标字段能匹配 格式规则且存在数据格式映射表中的映射规则, 则接着将该字段映射为对应的格式, 如果 数据中的目标字段能匹配 格式规则但不存在映射 规则, 则接着处 理该数据的其 他字段。 2.根据权利要求1所述的基于spark可配置自动清洗数据方法, 其特 征在于, 所述在数据库中创建各个业务的特殊格式表、 数据格式规则表及数据格式映射表, 包 括: 建立自定义 函数包, 存放各种特殊格式验证的udf函数; 创建特殊格式表, 用于提前存 储企业或系统的特殊格式及验证方式; 建立数据格式规则表, 用于某类业 务数据字段格式的判断, 过 滤错误、 垃圾数据; 建立数据格 式映射表, 用于字段格 式的映射, 统一上游系统传送过来的各种数据, 以用 于进行后续计算处 理。 3.根据权利要求2所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述数据 格式规则表包括如下字段: 业务名称、 字段名称、 字段类型编号以及正则补充, 所述数据格 式规则表的字段类型编号对应于所述特殊格式表中的编号。 4.根据权利要求2所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述数据 格式映射表包括如下字段: 字段名称、 字段名称、 字段类型编号、 映射后字段类型编号, 业务 名称和字段名称还用于区分业务和字段, 字段类型编号和映射后字段类型编号用于和所述 特殊格式表关联 得到转换 前和转换后该 数据的类型以及映射 函数名称。 5.根据权利要求2所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述数据 清洗配置页面包括特殊格式表配置页面、 数据格式规则表配置页面、 数据格式映射表配置 页面。 6.根据权利要求3所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述spark 任务加载要清洗的数据, 对数据进行清洗, 具体包括: 注册spar kudf函数, 使用sparkfilter 算子对数据中的每个字段的格式按验证函数进行判断, 正则类型根据正则 补充字段中的正 则表达式以及regexp_extract方法进行判定, 如果该字段符合格式要求, 则接着判定数据 中的其他字段是否符合格式要求, 一直到该数据所有字段判定完成, 如果该数据其中有一 个字段不符合格式要求, 则过 滤该数据。 7.根据权利要求1所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述方法 还包括: 在所有数据清洗 完成后, 使用spark write将经清洗的数据存 入数据库中。 8.根据权利要求1所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述方法 还包括: 配置各种不同业务的清洗配置, 使用cr ontab定时调度 清洗程序对 各种不同的业务 数据进行清洗 。权 利 要 求 书 1/1 页 2 CN 115269579 A 2一种基于spa rk可配置自动清洗数据 方法 技术领域 [0001]本发明涉及数据预处理技术领域, 具体涉及一种基于spark可配置自动清洗数据 方法。 背景技术 [0002]随着计算机技术的发展, 当今社会已经进入大数据时代。 企业能够通过各种途径 收集获取到自己期 望获得的海量数据。 然而, 由于数据量巨大, 必 然存在一些质量较差的数 据。 影响数据质量的因素主要有: 数据缺 失、 数据过时、 数据错误、 数据重复、 数据冲突等。 为 了提高数据的质量, 数据 清洗技术至关重要。 数据 清洗为企业运营提供高质量的数据服务, 也为数据挖掘提供 可靠的数据基础。 [0003]数据清洗是指通过对数据的检测和变换消除数据中的错误或冗余, 从而获得符合 要求的高质量数据。 现有技术中, 数据 清洗采用的主要手段包括: 基于数据属性字段的约束 对数据进行处 理以及在数据清洗过程中采用机器学习的方法。 [0004]然而, 基于现有数据清洗技术, 针对不同业务类型的数据清洗, 开发者需要从底层 进行设计开发, 数据清洗开发效率较低。 发明内容 [0005]本发明的目的在 于, 针对上述现有技术的不足, 提供一种基于spark可配置自动 清 洗数据方法, 以解决数据清洗开发效率低的问题。 [0006]为实现上述目的, 本发明采用的技 术方案如下: [0007]本发明提供了一种基于spark可配置自动清洗数据方法, 该 方法包括: [0008]在数据库中创建各个业 务的特殊格式表、 数据格式规则表及数据格式映射表; [0009]使用前端技 术构建数据清洗配置页面; [0010]将前端配置的内容存 入数据库中; [0011]创建spark清洗任务, 清洗任务读取特殊格式表已经业务对应的数据格式规则表、 数据格式映射表; [0012]spark任务加载要清洗的数据, 对数据进行清洗, 在清洗过程中, 如果数据中的目 标字段不能匹配数据格式规则表中的格式规则, 则过滤该数据, 如果数据中的目标字段能 匹配格式规则且存在数据格式映射表中的映射规则, 则接着将该字段映射为对应的格式, 如果数据中的目标字段能匹配格式规则但不存在映射规则, 则接着处理该数据的其他字 段。 [0013]可选地, 在数据库 中创建各个业务的特殊格式表、 数据格式规则表及数据格式映 射表, 包括: [0014]建立自定义 函数包, 存放各种特殊格式验证的udf函数; [0015]创建特殊格式表, 用于提前存 储企业或系统的特殊格式及验证方式; [0016]建立数据格式规则表, 用于某类业 务数据字段格式的判断, 过 滤错误、 垃圾数据;说 明 书 1/9 页 3 CN 115269579 A 3

.PDF文档 专利 一种基于spark可配置自动清洗数据方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于spark可配置自动清洗数据方法 第 1 页 专利 一种基于spark可配置自动清洗数据方法 第 2 页 专利 一种基于spark可配置自动清洗数据方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:32:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。