全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211044607.0 (22)申请日 2022.08.30 (71)申请人 中国计量大 学 地址 310018 浙江省杭州市钱塘区下沙高 教园区学源街258号 (72)发明人 王维维  (74)专利代理 机构 杭州凯知专利代理事务所 (普通合伙) 33267 专利代理师 郑新军 (51)Int.Cl. G06F 16/25(2019.01) G06F 8/36(2018.01) G06F 8/71(2018.01) (54)发明名称 一种中小企业 通用数据ETL任务同步方法 (57)摘要 本发明公开了一种中小企业通用数据ETL任 务同步方法。 它具体包括如下步骤: 用户配置ET L 任务源数据以及目标数据的连接组件、 存储组 件; 响应用户的选 择装载命令, 确定与ET L任务对 应, 将需要的相关组件装 载至ETL任务上; 确定 各 个组件的数据流向, 并用连接线连接; 配置装载 到ETL任务上的各个组件相关信息; 解析每个组 件的配置信息, 生成相应的SQL语句或者JAVA程 序; 基于多组件以及组件之间的数据流向确定好 ETL解析规则; 根据ETL解析规则, 以及各个组件 对应的SQL语句或者JAVA代码, 得到最终的可执 行JAR文件, 完成对数据的处理。 本发明的有益效 果是: 将ET L任务过程流程化、 可视化、 组件 化, 实 现ETL任务步骤自由组合, 简便直观, 满足了用户 对于操作步骤的自定义要求。 权利要求书2页 说明书6页 附图1页 CN 115391442 A 2022.11.25 CN 115391442 A 1.一种中小企业 通用数据ETL任务同步方法, 其特 征是, 具体包括如下步骤: (1) 用户配置ETL任务源数据以及目标数据的连接组件、 存储组件, 确定数据连接组件, 用于响应组件的数据读写请求; (2) 显示组件列表, 响应用户的选择装载命令, 确定与ETL任务对应, 将需要的相关组件 装载至ETL任务上; (3) 确定各个组件的数据流向, 并用连接线连接; (4) 配置装载到 ETL任务上的各个组件相关信息; (5) 解析每 个组件的配置信息, 生成相应的SQ L语句或者JA VA程序; (6) 基于多组件以及组件之间的数据流向确定好ETL 解析规则; (7) 根据ETL解析规则, 以及 各个组件对应的SQL语句或者JAVA代码, 得到最终的可执行 JAR文件, 完成对数据的处 理。 2.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法, 其特征是, 在步骤 (1) 中, 不同的ETL任务包含不同的数据处理组件, 组件 是一个或者多个, 并且每个组件含有 完整的功能, 用户在使用这些组件的时候选择直接使用或者根据需要进 行数据库函数配置 或者JAVA编码使用; 在ETL任务过程, 至少 包括数据连接组件、 数据装载组件或者文件存储 组件、 数据流组件。 3.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法, 其特征是, 在步骤 (2) 中, 在确定ETL任务之前, 需要先装载组件, 从组件库中选择出与ETL任务对应的相关组 件, 组件库的装载方法如下: 响应与用户可视化界面的拖拽操作, 生成装载指令, 基于装载 指令, 装载至ETL任务中; 组件库是系统默认内置或者是用户根据需要根据多组件自定义生 成的, 具体地, 包括以下步骤: 选择拖拽多个组件, 对多个组件的基础参数进 行配置, 基于多 个组件, 构建组件库; 其中, 基础参数包括各组件的数据流以及输入输出信息 。 4.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法, 其特征是, 在步骤 (3) 中, 确定任务目标之 间的数据流向, 其中数据流向使用带单向有箭头方向的连接线来标 识执行顺序, 数据流标识数据 的输入和输出, 箭头的方向标识数据流向, 箭头侧表示输入 流, 箭头的另外侧表示输出流。 5.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法, 其特征是, 在步骤 (4) 中, 在组件装载好、 数据流 向确定之后, 根据ETL任务需要对目标组件进行配置, 在对目 标组件进行配置时, 双击组件, 然后分别对相应的组件进行输入输出和步骤的参数配置; 在 ETL任务过程中, 除数据连接与存储之外, 至少 包括以下步骤之一: 数据选择、 数据关联、 数 据去重、 数据统计、 数据字段匹配映射、 数据库函数处理、 JAVA代码处理; 在具体执行某一 ETL任务时, 根据相关步骤选择组件。 6.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法, 其特征是, 在步骤 (5) 中, 在 组件中根据数据流向生成每个节点的SQL语句或者JAVA程序; 根据前一个节点的 输出SQL, 作为后一个组件的输入, 同时后一个组件对前一个组件的输入进行嵌套操作, 根 据用户的配置信息生 成一个SQL; 组件根据配置信息生 成嵌套SQL, 并生 成对应的物理表, 并 将嵌套SQ L和物理表信息作为输出传递给 下一个输入节点。 7.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法, 其特征是, 在步骤 (6) 中, ETL解析规则表示多个组件类型、 多个目标组件数据流, 因此,  ETL解析规则将除程权 利 要 求 书 1/2 页 2 CN 115391442 A 2序组件外的所有组件对应的结构化查询语 言SQL语句进 行组合, 得到最 终查询语句, 数据流 中含有程序组件, 以有程序组件为分割, 程序组件以数据处理组件的最 终查询语句为输入, 根据代码功能初始化SQ L作为输出。 8.根据权利要求1或7所述的一种中小企业通用数据ETL任务同步方法, 其特征是, 在步 骤 (6) 中, 在生 成ETL解析规则后, 还需要对ETL解析规则进行校验, 对ETL解析规则的校验决 定ETL任务是否会按照用户要求顺利执行, 检验不通过即不符合要求的ETL解析规则的任务 不被执行: ETL解析规则的校验 包括: (61) 除连接和存储组件外, 其他组件必须含有至少一个输入和输出流, 即组件必须是 相连接状态; (62) 所有组件均需要串行连接, 确保各个组件的先后顺序, 组件之间不能出现回路的 情况; (63) 各组件 对输入的字段进行操作需要满足不同的类型; 具体地, 每执行一个ETL任务中的步骤后, 生成一个数据表, 对ETL解析规则进行校验, 包括: 判断输出的类型与输入的操作类型是否相同; 若相同, 则检验不通过, 如果不同, 组件 会自动进行类型提升, 若提升后, SQ L可执行则检验通过, 若不能执 行则不通过。 9.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法, 其特征是, 在步骤 (7) 中, 具体地, 采用MAVEN方式引入用户添加的第三方包文件, 将SQL嵌套语句、 JAVA程序代 码、 第三方包文件以及配置文件打包编译至JAR文件中, JAR文件执行顺序与ETL解析规则一 致, 数据流经过程序处理组件, 嵌套SQL语句经过JAVA代码处理后重新生成新的不嵌套的 SQL进行输出。权 利 要 求 书 2/2 页 3 CN 115391442 A 3

.PDF文档 专利 一种中小企业通用数据ETL任务同步方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种中小企业通用数据ETL任务同步方法 第 1 页 专利 一种中小企业通用数据ETL任务同步方法 第 2 页 专利 一种中小企业通用数据ETL任务同步方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:58:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。