(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210922074.5
(22)申请日 2022.08.02
(71)申请人 上海工业自动化仪表研究院有限公
司
地址 200233 上海市徐汇区漕宝路10 3号
(72)发明人 郑佳佳 朱连凯
(74)专利代理 机构 苏州所术专利商标代理事务
所(普通合伙) 32473
专利代理师 孙兵
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 9/445(2018.01)
(54)发明名称
一种基于spark可配 置自动清洗数据方法
(57)摘要
本发明提供一种基于spar k可配置自动清洗
数据方法, 涉及数据预处理技术领域。 该方法包
括: 在数据库中创建各个业务的特殊格式表、 数
据格式规则表及数据格式映射表; 使用前端技术
构建数据清洗配置页面; 将前端配置的内容存入
数据库中; 创建spark清洗任务, 清洗任务读取特
殊格式表已经业务对应的数据格式规则表、 数据
格式映射表; spark任 务加载要清洗的数据, 对数
据进行清洗。 通过定义前台功能, 使开发者能够
自己定义格式及格式映射规则, 对于不同业务数
据进行清洗, 开发者只需要通过前台配置的方式
来完成各种业务字段的清洗规则, 避免了数据清
洗中的大量反复开发工作, 极大的提高了开发效
率。
权利要求书1页 说明书9页 附图2页
CN 115269579 A
2022.11.01
CN 115269579 A
1.一种基于spark可配置自动清洗数据方法, 其特 征在于, 所述方法包括:
在数据库中创建各个业 务的特殊格式表、 数据格式规则表及数据格式映射表;
使用前端技 术构建数据清洗配置页面;
将前端配置的内容存 入数据库中;
创建spark清洗任务, 清洗任务读取特殊格式表已经业务对应的数据格式规则表、 数据
格式映射表;
spark任务加载要清洗的数据, 对数据进行清洗, 在清洗过程中, 如果数据中的目标字
段不能匹配数据格式规则表中的格式规则, 则过滤该数据, 如果数据中的目标字段能匹配
格式规则且存在数据格式映射表中的映射规则, 则接着将该字段映射为对应的格式, 如果
数据中的目标字段能匹配 格式规则但不存在映射 规则, 则接着处 理该数据的其 他字段。
2.根据权利要求1所述的基于spark可配置自动清洗数据方法, 其特 征在于,
所述在数据库中创建各个业务的特殊格式表、 数据格式规则表及数据格式映射表, 包
括:
建立自定义 函数包, 存放各种特殊格式验证的udf函数;
创建特殊格式表, 用于提前存 储企业或系统的特殊格式及验证方式;
建立数据格式规则表, 用于某类业 务数据字段格式的判断, 过 滤错误、 垃圾数据;
建立数据格 式映射表, 用于字段格 式的映射, 统一上游系统传送过来的各种数据, 以用
于进行后续计算处 理。
3.根据权利要求2所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述数据
格式规则表包括如下字段: 业务名称、 字段名称、 字段类型编号以及正则补充, 所述数据格
式规则表的字段类型编号对应于所述特殊格式表中的编号。
4.根据权利要求2所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述数据
格式映射表包括如下字段: 字段名称、 字段名称、 字段类型编号、 映射后字段类型编号, 业务
名称和字段名称还用于区分业务和字段, 字段类型编号和映射后字段类型编号用于和所述
特殊格式表关联 得到转换 前和转换后该 数据的类型以及映射 函数名称。
5.根据权利要求2所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述数据
清洗配置页面包括特殊格式表配置页面、 数据格式规则表配置页面、 数据格式映射表配置
页面。
6.根据权利要求3所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述spark
任务加载要清洗的数据, 对数据进行清洗, 具体包括: 注册spar kudf函数, 使用sparkfilter
算子对数据中的每个字段的格式按验证函数进行判断, 正则类型根据正则 补充字段中的正
则表达式以及regexp_extract方法进行判定, 如果该字段符合格式要求, 则接着判定数据
中的其他字段是否符合格式要求, 一直到该数据所有字段判定完成, 如果该数据其中有一
个字段不符合格式要求, 则过 滤该数据。
7.根据权利要求1所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述方法
还包括: 在所有数据清洗 完成后, 使用spark write将经清洗的数据存 入数据库中。
8.根据权利要求1所述的基于spark可配置自动清洗数据方法, 其特征在于, 所述方法
还包括: 配置各种不同业务的清洗配置, 使用cr ontab定时调度 清洗程序对 各种不同的业务
数据进行清洗 。权 利 要 求 书 1/1 页
2
CN 115269579 A
2一种基于spa rk可配置自动清洗数据 方法
技术领域
[0001]本发明涉及数据预处理技术领域, 具体涉及一种基于spark可配置自动清洗数据
方法。
背景技术
[0002]随着计算机技术的发展, 当今社会已经进入大数据时代。 企业能够通过各种途径
收集获取到自己期 望获得的海量数据。 然而, 由于数据量巨大, 必 然存在一些质量较差的数
据。 影响数据质量的因素主要有: 数据缺 失、 数据过时、 数据错误、 数据重复、 数据冲突等。 为
了提高数据的质量, 数据 清洗技术至关重要。 数据 清洗为企业运营提供高质量的数据服务,
也为数据挖掘提供 可靠的数据基础。
[0003]数据清洗是指通过对数据的检测和变换消除数据中的错误或冗余, 从而获得符合
要求的高质量数据。 现有技术中, 数据 清洗采用的主要手段包括: 基于数据属性字段的约束
对数据进行处 理以及在数据清洗过程中采用机器学习的方法。
[0004]然而, 基于现有数据清洗技术, 针对不同业务类型的数据清洗, 开发者需要从底层
进行设计开发, 数据清洗开发效率较低。
发明内容
[0005]本发明的目的在 于, 针对上述现有技术的不足, 提供一种基于spark可配置自动 清
洗数据方法, 以解决数据清洗开发效率低的问题。
[0006]为实现上述目的, 本发明采用的技 术方案如下:
[0007]本发明提供了一种基于spark可配置自动清洗数据方法, 该 方法包括:
[0008]在数据库中创建各个业 务的特殊格式表、 数据格式规则表及数据格式映射表;
[0009]使用前端技 术构建数据清洗配置页面;
[0010]将前端配置的内容存 入数据库中;
[0011]创建spark清洗任务, 清洗任务读取特殊格式表已经业务对应的数据格式规则表、
数据格式映射表;
[0012]spark任务加载要清洗的数据, 对数据进行清洗, 在清洗过程中, 如果数据中的目
标字段不能匹配数据格式规则表中的格式规则, 则过滤该数据, 如果数据中的目标字段能
匹配格式规则且存在数据格式映射表中的映射规则, 则接着将该字段映射为对应的格式,
如果数据中的目标字段能匹配格式规则但不存在映射规则, 则接着处理该数据的其他字
段。
[0013]可选地, 在数据库 中创建各个业务的特殊格式表、 数据格式规则表及数据格式映
射表, 包括:
[0014]建立自定义 函数包, 存放各种特殊格式验证的udf函数;
[0015]创建特殊格式表, 用于提前存 储企业或系统的特殊格式及验证方式;
[0016]建立数据格式规则表, 用于某类业 务数据字段格式的判断, 过 滤错误、 垃圾数据;说 明 书 1/9 页
3
CN 115269579 A
3
专利 一种基于spark可配置自动清洗数据方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:32:12上传分享