全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211202085.2 (22)申请日 2022.09.29 (71)申请人 广东亿迅科技有限公司 地址 510000 广东省广州市天河区花城大 道777号广东长线大厦 (72)发明人 杨炳正  (74)专利代理 机构 广州海心联合专利代理事务 所(普通合伙) 44295 专利代理师 李哲瑜 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/951(2019.01) (54)发明名称 一种web页面的数据抽取、 转换和加载的方 法、 系统及装置 (57)摘要 本发明公开了一种web页面的数据抽取、 转 换和加载的方法, 属于大数据与IT与软件开发的 技术领域, 该方法通过从web页面进行操作就可 以进行数据抽取、 转换和加载, 具有操作方便、 通 用性好的特点; 包括以下步骤: (1)通过方案管理 的新增方案; (2)调用后台保存接口, 接口通过代 码逻辑进行数据封装, 生 成执行文件存储在服务 器路径下; (3)通过任务管理的新增任务, 并调用 抽取方案, 通过定时抽取或手动抽取, 获得抽取 任务, 调用后台接口将相关信息存入数据库; (4) 系统定时自动启动或者手动启动抽取任务, 调用 后台接口, 接口判断方案类型读取并执行执行文 件, 进行数据抽取。 权利要求书2页 说明书6页 附图1页 CN 115374209 A 2022.11.22 CN 115374209 A 1.一种web页面的数据抽取、 转换和 加载的方法, 其特 征在于, 包括以下步骤: (1)通过方案管理的新增方案, 利用ETL引擎工具、 抽取规则、 来源数据、 来源表、 去向数 据源、 去向表、 表字段对应和抽取类型, 获得抽取 方案; (2)调用后台保存接口, 接口通过代码逻辑进行数据封装, 生成执行文件存储在服务器 路径下, 并将相关信息存 入数据库; (3)通过任务管理的新增任务, 并调用步骤(1)所获得的抽取方案, 通过定时抽取或手 动抽取, 获得抽取任务, 调用后台接口将相关信息存 入数据库; (4)系统定时自动启动或者手动启动步骤(3)所获得的抽取任务, 调用后 台接口, 接口 判断方案类型读取并执 行步骤(2)所 得的执行文件, 进行 数据抽取。 2.根据权利要求1所述的一种web页面的数据抽取、 转换和加载的方法, 其特征在于, 在 所述的步骤(1)中, ETL引擎工具包括DataX引擎和Kettle引擎两种, 抽取策略包括字典转 换、 字段选择、 去重、 去除无效字符和设置 字段值。 3.根据权利要求2所述的一种web页面的数据抽取、 转换和加载的方法, 其特征在于, 所 述的步骤( 2)中, 接口通过代码逻辑进行数据封装时, 当ETL引擎工具为DataX引擎, 通过 fastjson来操作和组装json数据, 生成.conf文件; 当ETL引擎工具为Kettle引擎, 通过 Dom4j操作xml节点, 对不同节点的操作生成和组装后生成.job文件和.kt r文件。 4.根据权利要求1所述的一种web页面的数据抽取、 转换和加载的方法, 其特征在于, 所 述的步骤(4)中, 当选择自动抽取时, 定好抽取时间后系统定时自动启动步骤(3)所获得的 抽取任务; 当选择手动抽取时, 手动启动步骤(3)所获得的抽取任务。 5.根据权利要求1所述的一种web页面的数据抽取、 转换和加载的方法, 其特征在于, 在 所述的步骤(1)前, 还 包括以下步骤: (0.1)增加数据源, 测试 数据源是否连通; (0.2)通过规则管理页面, 新增抽取规则。 6.根据权利要求1所述的一种web页面的数据抽取、 转换和加载的方法, 其特征在于, 还 包括步骤(5)通过 结果管理获取本次抽取 结果的具体信息 。 7.根据权利要求1所述的一种web页面的数据抽取、 转换和加载的系统, 其特征在于, 包 括: 抽取方案设定模块: 用于创建新的抽取 方案; 封装模块: 用于生成执 行文件存储在服务器路径; 抽取任务设定模块: 用于创建新的抽取任务; 抽取执行模块: 用于执 行新创建的抽取任务; 所述抽取方案设定模块的输出端分别与封装模块的输入端和抽取任务设定模块的输 入端连接, 所述封装 模块的输出端和抽取任务的输出端均 与抽取执行模块的输入端连接 。 8.根据权利要求7所述的一种web页面的数据抽取、 转换和加载的系统, 其特征在于, 还 包括: 抽取规则设定模块: 用于创建新的抽取规则; 所述抽取规则设定模块的输出端与抽取 方案设定模块的输入端连接 。 9.根据权利要求7 ‑8所述的一种web页面的数据抽取、 转换和加载的装置, 包括存储器 和处理器, 所述的存储器存储有计算机程序, 其特征在于, 所述处理器执行计算机程序时实权 利 要 求 书 1/2 页 2 CN 115374209 A 2现权利要求书1 ‑7中任一所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115374209 A 3

.PDF文档 专利 一种web页面的数据抽取、转换和加载的方法、系统及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种web页面的数据抽取、转换和加载的方法、系统及装置 第 1 页 专利 一种web页面的数据抽取、转换和加载的方法、系统及装置 第 2 页 专利 一种web页面的数据抽取、转换和加载的方法、系统及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:58:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。