(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210404012.5
(22)申请日 2022.04.18
(71)申请人 广州菩润信息科技有限公司
地址 510000 广东省广州市天河区中山大
道95号D栋4层403号房(仅限办公用
途)
(72)发明人 胡必文 石志杰 李国雄
(74)专利代理 机构 广州立凡知识产权代理有限
公司 44563
专利代理师 龙艳华
(51)Int.Cl.
G06F 11/07(2006.01)
G06F 16/25(2019.01)
G06F 16/28(2019.01)
G06F 16/23(2019.01)
(54)发明名称
分布式多源数据 的采集方法、 系统、 设备及
存储介质
(57)摘要
本发明涉及一种分布式多源数据的采集方
法、 系统、 计算机设备及存储介质, 其技术方案要
点是: 将多个数据库和多个采集端建立多对多的
关联关系; 判断是否有采集端出现故障, 是则确
定第一数据库集合和第一采集端集合, 其中, 第
一数据库集合为该出现故障的采集端对应的所
有数据库的集合, 第一采集端集合为除该出现故
障的采集端之外的第一数据库集合中所有数据
库对应的采集端的集合; 根据预设的第一配置规
则、 第一数据库集合、 第一采集端集合和关联关
系生成第二配置规则, 各个采集端根据第二配置
规则获取对应的数据库的日志数据; 本申请具有
出现故障的情况下, 将该采集端对应的数据库分
配给正常运行的其他采集端采集, 以保证数据正
常采集的效果。
权利要求书2页 说明书9页 附图2页
CN 114661513 A
2022.06.24
CN 114661513 A
1.一种分布式多源数据的采集方法, 其特 征在于, 包括:
将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立
多对多的关联关系;
判断所有所述采集端中是否有采集端出现故障, 若为是, 则根据预设的第一配置规则
和该出现故障的采集端确定第一数据库集合, 根据所述第一数据库集合、 关联关系和该出
现故障的采集端确定第一采集端集合, 其中, 所述第一数据库集合为该出现故障的采集端
根据所述第一配置规则对应的所有数据库的集合, 所述第一采集端集合为除该出现故障的
采集端之外的所述第一数据库集 合中所有数据库根据关联关系对应的采集端的集 合;
根据所述第一配置规则、 第一数据库集合、 第一采集端集合和关联关系生成第二配置
规则, 各个所述采集端根据第二配置规则获取对应的数据库的日志数据;
若为否, 则各个所述采集端根据第一配置规则获取对应的数据库的日志数据。
2.根据权利要求1所述的分布式多源数据的采集方法, 其特征在于, 所述将多个数据库
和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系,
包括:
将各个数据库 与至少一采集端建立第一关联;
将各个采集端与至少一数据库建立第二关联。
3.根据权利要求2所述的分布式多源数据的采集方法, 其特征在于, 所述根据 预设的第
一配置规则和该出现故障的采集端确定第一数据库集合, 根据所述第一数据库集合、 关联
关系和该 出现故障的采集端确定第一采集端集 合, 包括:
根据所述第一配置规则选出出现故障的采集端对应的所有数据库确定第一数据库集
合;
根据所述第一关联将所有采集端 进行划分得到多个分类组;
根据所述第 一关联筛选出所述第 一数据库集合中的各个数据库对应的分类组, 从该分
类组中任选一除该 出现故障的采集端之外的采集端确定第一采集端;
将所述第一数据库集合中的所有数据库对应的所有第一采集端汇集确定第一采集端
集合。
4.根据权利要求2所述的分布式多源数据的采集方法, 其特征在于, 所述根据 所述第一
配置规则、 第一数据库集 合、 第一采集端集 合和关联关系生成第二配置规则, 包括:
所述第一配置规则为各个采集端根据第 二关联与至少一数据库建立第 三关联, 且在所
述第三关联中各个数据库对应唯一的采集端;
在所述第三关联的基础上取消第一数据库集合中的所有数据库与出现故障的采集端
的关联;
根据所述第一关联将第一数据库集合中的各个数据库和第一采集端集合中与其对应
的采集端建立关联 形成第二配置规则。
5.根据权利要求1 ‑4任一项所述的分布式多源数据的采集方法, 其特征在于, 所述采集
端对所述数据库的日志数据进行解析和标准 化, 包括:
将日志数据以json格式发送至kafka队列缓存, 然后采用StreamSets工具将缓存在
Kafka队列上的日志数据实时写入到数据仓库。
6.根据权利要求5所述的分布式多源数据的采集方法, 其特征在于, 所述获取对应的数权 利 要 求 书 1/2 页
2
CN 114661513 A
2据库的日志数据, 包括:
通过JDBC通用协议获取对应的数据库的日志数据, 所述日志数据包括: 增加数据、 修改
数据和删除数据。
7.一种分布式多源数据的采集系统, 其特 征在于, 包括:
建立关联模块, 用于将多个数据库和多个用于对所述数据库的日志数据进行解析和标
准化的采集端建立多对多的关联关系;
判断采集模块, 用于判断所有所述采集端中是否有采集端出现故障, 若为是, 则根据 预
设的第一配置规则和该出现故障的采集端确定第一数据库集合, 根据所述第一数据库集
合、 关联关系和该出现故障的采集端确定第一采集端集合, 其中, 所述第一数据库集合为该
出现故障的采集端根据所述第一配置规则对应的所有 数据库的集合, 所述第一采集端集合
为除该出现故障的采集端之外的所述第一数据库集合中所有数据库根据关联关系对应的
采集端的集合; 根据所述第一配置规则、 第一数据库集合、 第一采集端集合和关联关系生成
第二配置规则, 各个所述采集端根据第二配置规则获取对应的数据库的日志数据; 若为否,
则各个所述采集端根据第一配置规则获取对应的数据库的日志数据。
8.根据权利要求7所述的一种分布式多源数据的采集系统, 其特征在于, 所述建立关联
模块包括:
第一关联 单元, 用于将各个数据库 与至少一采集端建立第一关联;
第二关联 单元, 用于将各个采集端与至少一数据库建立第二关联;
所述判断采集模块包括:
第一确定单元, 用于根据所述第 一配置规则 选出出现故障的采集端对应的所有数据库
确定第一数据库集 合;
分类单元, 用于根据第一关联将所有采集端 进行划分得到多个分类组;
第二确定单元, 用于根据所述第 一关联筛选出所述第 一数据库集合中的各个数据库对
应的分类组, 从该分类组中任选一除该 出现故障的采集端之外的采集端确定第一采集端;
第三确定单元, 用于将所述第 一数据库集合中的所有数据库对应的所有第 一采集端汇
集确定第一采集端集 合。
9.一种计算机设备,包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在
于, 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述的方法的步骤。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 114661513 A
3
专利 分布式多源数据的采集方法、系统、设备及存储介质
安全报告 >
其他 >
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-24 08:49:58上传分享