全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211212514.4 (22)申请日 2022.09.29 (71)申请人 山东亿云信息技 术有限公司 地址 250014 山东省济南市高新区新 泺大 街2008号银荷大厦B座 4层 (72)发明人 孙浩 李扬 王召祺 李欣欣  孙露 卢凤  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 祖之强 (51)Int.Cl. G06F 16/27(2019.01) H04L 67/1095(2022.01) (54)发明名称 一种异构数据增量同步及断点 续传的方法 (57)摘要 本发明提供了一种异构数据增量同步及断 点续传的方法, 通过增量同步的初始值及结束值 的逻辑判断, 判断出增量同步需要的真正初始值 和真正结束值, 通过方言转换器转换成对应的 where条件和p resql预执行sql, 并传递给Datax; 将Datax发布到调度平台中以实现周期性的增量 同步; 插入状态表, 记录每次周期同步的情况并 复用Datax的日志组件以实现对于同步日志的查 看; 本发明保证不出现数据丢失、 数据重复的情 况下的离线增量同步, 实现了针对异常情况下的 断点续传功能。 权利要求书1页 说明书6页 附图2页 CN 115525719 A 2022.12.27 CN 115525719 A 1.一种异构数据增量同步及断点 续传的方法, 其特 征在于: 通过增量同步的初始值及结束值的逻辑判断, 判断出增量同步需要的真正初始值和真 正结束值, 通过 方言转换器转换成对应的where 条件和presql预 执行sql, 并传递给Datax; 将Datax发布到调度平台 中以实现周期性的增量同步; 插入状态表, 记录每次周期同步的情况并复用Datax的日志组件以实现对于 同步日志 的查看。 2.如权利要求1所述的异构数据增量同步及断点 续传的方法, 其特 征在于: 通过在业务端配置输入源的信息, 包括: 自定义数据库驱动信 息、 数据库类型和账号密 码, 支持定期修改数据源密码。 3.如权利要求2所述的异构数据增量同步及断点 续传的方法, 其特 征在于: 数据库类型至少包括: mysql、 sqlserver、 postgresql、 oracle、 TiDB、 达 梦和神通。 4.如权利要求1所述的异构数据增量同步及断点 续传的方法, 其特 征在于: 支持多种常用数据库 作为数据源的输入和输出。 5.如权利要求1所述的异构数据增量同步及断点 续传的方法, 其特 征在于: 通过增量同步的初始值及结束值的逻辑判断, 包括: 给定一个指定开始值, 获取输入数据源的最大值; 获取输出 数据库的最大值; 比较给定的开始值与输出数据库的最大值, 取较大的作为最终的目标数据库的最大 值, 所述最终的目标 数据库的最大值 为本次同步的所需要的初始值; 处理异常情况下, 同步结束时结束值重复且出现部分缺失的情况, 比较输入数据库和 输出数据库中对于真正的初始值的个数, 如果个数不一致说明同步的上次执行出现问题, 如果个数一 致说明同步的上次执 行没有问题; 获取最终初始值, 最终初始值和最终结束值通过方言转换器, 进行相匹配的数据库的 格式; 对输入源进行按照对于增量字段的有序读取。 6.如权利要求5所述的异构数据增量同步及断点 续传的方法, 其特 征在于: 同步的上次执行出现问题时, 针对这个初始值上的数据进行删除处理, 处理方式使用 presql来执行测试。 7.如权利要求5所述的异构数据增量同步及断点 续传的方法, 其特 征在于: 同步的上次执 行没有问题时, 初始值的精度加1。 8.如权利要求7 所述的异构数据增量同步及断点 续传的方法, 其特 征在于: 如果增量字段为数字, 则执行+1操作; 如果增量字段为时间类型, 则秒的后6位精度+1, +1操作之后, 替换原初始值, 并作为 新的初始值, 直至得到最终初始值。 9.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时实 现如权利要求1 ‑8任一项所述的异构数据增量同步及断点 续传的方法中的步骤。 10.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的程 序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑8任一项所述的异构数据增 量同步及断点 续传的方法中的步骤。权 利 要 求 书 1/1 页 2 CN 115525719 A 2一种异构数据增量同步及断点续传的方 法 技术领域 [0001]本发明涉及数据处理技术领域, 特别涉及 一种异构数据增量同步及断点续传的方 法。 背景技术 [0002]本部分的陈述仅仅是提供了与本发明相关的背景技 术, 并不必然构成现有技 术。 [0003]伴随信息化水平的越来越高, 数据的爆发性增长导致有海量的数据存储在不同类 型的数据库中, 数据增长的同时, 对于数据主题库或者数据汇聚的要求越来越高。 [0004]发明人发现, 当前数据平台中的数据同步工具, 大都只能实现全量同步的方式, 对 离线增量的场景支持上存在很多问题, 例如: [0005](1)现有很多增量 同步工具很多只能支持相同类型的数据同步, 现实情况是很多 业务系统分批次建立的, 对应的数据源存储也是各种 各样, 实现一个异构数据源同步到统 一的数据库类型, 然后进行分析 是十分必要的; [0006](2)当前的工具, 基本不支持断点续传(指增量同步失败后, 下次同步可以从上次 异常点再进 行同步), 而且会出现增量同步过程中数据重复和数据缺 失的情况, 严重影响了 后续的数据质量及数据的分析的精确性 等业务场景。 发明内容 [0007]为了解决现有技术的不足, 本发明提供了一种异构数据增量同步及断点续传的方 法, 保证不出现数据丢失、 数据重复的情况下的离线增量同步, 实现了针对异常情况下的断 点续传功能。 [0008]为了实现上述目的, 本发明采用如下技 术方案: [0009]一种异构数据增量同步及断点 续传的方法, 包括以下 过程: [0010]通过增量同步的初始值及结束值的逻辑判断, 判断出增量同步需要的真正初始值 和真正结束值, 通过方言转换器转换成对应的where条件和presql预执行sql, 并传递给 Datax; [0011]将Datax发布到调度平台 中以实现周期性的增量同步; [0012]插入状态表, 记录每次周期同步的情况并复用Datax的日志组件以实现对于同步 日志的查看。 [0013]作为可选的一种实现方式, 通过在业务端配置输入源的信息, 包括: 自定义数据库 驱动信息、 数据库类型和账号密码, 支持定期修改数据源密码。 [0014]作为进一步的限定, 数据库类型至少包括: mysql、 sqlserver、 postgresql、 oracle、 TiDB、 达 梦和神通。 [0015]作为可选的一种实现方式, 支持多种常用数据库 作为数据源的输入和输出。 [0016]作为可选的一种实现方式, 通过增量同步的初始值及结束值的逻辑判断, 包括: [0017]给定一个指定开始值, 获取输入数据源的最大值;说 明 书 1/6 页 3 CN 115525719 A 3

.PDF文档 专利 一种异构数据增量同步及断点续传的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种异构数据增量同步及断点续传的方法 第 1 页 专利 一种异构数据增量同步及断点续传的方法 第 2 页 专利 一种异构数据增量同步及断点续传的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:49:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。