全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210928257.8 (22)申请日 2022.08.03 (71)申请人 上海华能电子商务有限公司 地址 201208 上海市浦东 新区陆家嘴路6 6 号招商大厦24层01单 元 申请人 华能集团技 术创新中心有限公司 (72)发明人 蔡洪旺 郭新昱 孙守虎 谢世安  梁永吉 杨焰 迟玉翠 郑伟  孙小函 蔡祥  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 应小波 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/28(2019.01)G06F 11/30(2006.01) G06F 16/23(2019.01) (54)发明名称 一种基于CDC模式的数据抓取系统及方法 (57)摘要 本发明涉及一种基于CDC模式的数据抓取系 统及方法, 其中系统包括源库、 Uxsync工作台和 目标库, 该系统还包括agent监听进程和merge   sever, 所述的agent监听进程和merge  sever配 置于Uxsync工作 台上, 所述的agent监听进程从 源库采集事务日志, 传输到merge  sever对数据 进行格式转化后, 传输至目标库中。 与现有技术 相比, 本发明具有减少开发成本、 非侵入式和不 会增加原系统负载等优点。 权利要求书1页 说明书3页 附图1页 CN 115269705 A 2022.11.01 CN 115269705 A 1.一种基于CDC模式的数据 抓取系统, 包括源库、 Uxsync工作台和目标库, 其特征在于, 该系统还包括agent监听进程和merge  sever, 所述的agent监听进 程和merge  sever配置于 Uxsync工作台上, 所述的agent监听进程从源库采集事务日志, 传输到merge  sever对数据 进行格式转 化后, 传输 至目标库中。 2.根据权利要求1所述的一种基于CDC模式的数据抓取系统, 其特征在于, 所述的源库 包括postgresql、 mysql、 orcale和sql  server数据库。 3.根据权利 要求1所述的一种基于CDC模式的数据抓取系统, 其特征在于, 所述的agent 监听进程采集的数据为从事务日志获取的数据表的增量数据。 4.根据权利 要求3所述的一种基于CDC模式的数据抓取系统, 其特征在于, 所述的merge   sever对增量数据进行 结构化处 理, 将增量数据转 化为sql语句, 从而同步到目标库中。 5.根据权利要求1所述的一种基于CDC模式的数据抓取系统, 其特征在于, 所述的 Uxsync工作台为agent监听进程指定数据库类型、 事务日志位置、 采集周期和每次采集数 量。 6.根据权利要求1所述的一种基于CDC模式的数据抓取系统, 其特征在于, 所述的 Uxsync工作台为merge  server配置数据类型映射、 目标数据库类型、 端口、 ip、 发送频率和 发送sql数量。 7.根据权利要求1所述的一种基于CDC模式的数据抓取系统, 其特征在于, 所述的 Uxsync工作台包括前端的图像界面, 用于 显示agent的运行状态和merge  server运行状态。 8.一种采用权利要求1所述的基于CDC模式的数据抓取系统的方法, 其特征在于, 该方 法包括以下步骤: 步骤1、 Uxsync工作台为agent监听进程配置监听频率、 抽取数量、 源数据库日志位置, 为merge server配置数据类型映射、 目标 数据库类型、 端口、 ip、 发送频率和发送sql数量; 步骤2、 agent监听进程从源库监听事务日志的增量, 并定时抽取增量数据发送到merge   sever; 步骤3、 merge  sever解析增量数据, 根据目标库类型, 将增量数据改写为特定的可执行 sql语句; 步骤4、 merge  sever将sql语句发送至目标库。 9.根据权利要求8所述的方法, 其特征在于, 所述的步骤2中抽取事务日志 的增量数据 时, agent监听进程针对不同的源库类型采用不同的抽取 方法。 10.根据权利要求8所述的方法, 其特征在于, 当源库为postgresql数据库时, agent监 听进程记录每次抽取的cl og序列号, 并依次按顺序抽取。权 利 要 求 书 1/1 页 2 CN 115269705 A 2一种基于C DC模式的数据 抓取系统及方 法 技术领域 [0001]本发明涉及数据库同步领域, 尤其是涉及一种基于CDC(Change  DataCapture, 变 动数据捕获)模式的数据抓取系统及方法。 背景技术 [0002]随着企业的发展, 数据库的负载逐渐增加, 越来越多实时数据查询应用使得数据 库不能直接为客户带来直接查询结果, 因为数据库负荷越来越重, 更多的系统无法享受直 接查询的结果, 数据同步 技术越发重要。 [0003]抽取处理需要重点考虑增量抽取, 也被称为变化数据捕获, 简称CDC。 假设一个数 据仓库系统, 在每天夜里 的业务低峰时间从操作型源系统抽取数据, 那么增 量抽取只需要 过去24小时内发生变化的数据。 变化数据捕获也是建立 准实时数据仓库的关键技 术。 [0004]当你能够识别并获得最近发生变化的数据时, 抽 取及其后面的转换、 装载操作显 然都会变得更高效, 因为要处理的数据量会小很多。 遗憾的是, 很多源系统很难识别出最近 变化的数据, 或者必须侵入 源系统才能做到 。 变化数据捕获是 数据抽取中典型的技 术挑战。 [0005]常用的变化数据捕获方法有时间戳、 快照、 触发器和日志四种。 时间戳方法需要源 系统有相应的数据列表示最后的数据变化。 快照方法可以使用数据库系统自带的机制实 现, 如Oracle的物化视图技术, 也可以自己实现相关逻辑, 但会比较复杂。 触发器是关系数 据库系统具有的特性, 源表上建立的触发器会在对该表执行insert、 update、 delete等语句 时被触发, 触发器中的逻辑用于捕获数据的变化。 日志可以使用应用日志或系统日志, 这种 方式对源系统不具有侵入性, 但需要额外的日志解析工作。 [0006]因此如何来实现针对现有的主流数据库 事务日志进行处理, 减少数据同步的开发 成本, 并对业 务没有侵入性, 成为需要解决的技 术问题。 发明内容 [0007]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于CDC模式的 数据抓取系统及方法。 [0008]本发明的目的可以通过以下技 术方案来实现: [0009]根据本发明的一个方面, 提供了一种基于CDC模式的数据抓取系统, 包括源库、 Uxsync(优炫数据同步工具)工作台和目标库, 该系统还包括agent(代理客户端)监听进程 和merge sever(数据合并服务), 所述的agent监听进程和merge  sever配置于Uxsync工作 台上, 所述的agent监听进程 从源库采集事务日志, 传输到mergesever对 数据进行格式转化 后, 传输至目标库中。 [0010]作为优选的技术方案, 所述的源库包括postgresql、 mysql、 orcale和sql  server 数据库。 [0011]作为优选的技术方案, 所述 的agent监听进程采集的数据为从事务日志获取的数 据表的增量数据。说 明 书 1/3 页 3 CN 115269705 A 3

PDF文档 专利 一种基于CDC模式的数据抓取系统及方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于CDC模式的数据抓取系统及方法 第 1 页 专利 一种基于CDC模式的数据抓取系统及方法 第 2 页 专利 一种基于CDC模式的数据抓取系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:40:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。