(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210505210.0
(22)申请日 2022.05.10
(71)申请人 中国平安财产保险股份有限公司
地址 518000 广东省深圳市福田街道益田
路5033号平安金融中心12、 13、 38、 39、
40、 62层
(72)发明人 易晓博
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
专利代理师 高杰 于志光
(51)Int.Cl.
G06F 16/23(2019.01)
G06F 16/2458(2019.01)
G06F 16/27(2019.01)
(54)发明名称
用于流式计算的数据处理方法、 装置、 设备
及介质
(57)摘要
本发明涉及数据处理技术, 揭露一种用于流
式计算的数据处理方法, 包括: 对预设数据进行
分区及分桶的存储; 监听到用户对 所述预设数据
执行新增操作或删除操作时, 生成相应的新增数
据文件及删除数据文件; 定时对 所述新增数据文
件及所述删除数据文件进行合并, 根据所述合并
结果刷新所述预设数据, 并删除已合并的新增数
据文件及已合并的删除数据文件; 监听到用户对
所述预设数据执行更新操作时, 识别所述更新操
作对应的待更新数据所在的分桶, 从所述待更新
数据所在的分桶中获取所述待更新数据, 并根据
所述更新操作更新所述待更新数据。 本发明还提
出一种用于流式计算的数据处理装置、 设备以及
介质。 本发明可以提升流式计算的效率。
权利要求书2页 说明书13页 附图3页
CN 114756564 A
2022.07.15
CN 114756564 A
1.一种用于流式计算的数据处 理方法, 其特 征在于, 所述方法包括:
对预设数据进行分区, 并将每 个所述分区内的数据划分成不同的分桶进行存 储;
监听到用户对所述预设数据 执行新增操作或删除操作时, 生成相应的新增数据文件及
删除数据文件, 并将所述 新增数据文件及所述删除数据文件 存储到对应的分区及分桶中;
定时获取每个所述分区及每个所述分桶内的新增数据文件及删除数据文件进行合并
得到合并结果, 根据所述合并结果刷新所述预设数据, 并删除已合并的新增数据文件及已
合并的删除数据文件;
监听到用户对所述预设数据 执行更新操作时, 识别所述更新操作对应的待更新数据 所
在的分桶, 从所述待更新数据所在的分桶中获取所述待更新数据, 并根据所述更新操作更
新所述待更新数据。
2.如权利要求1所述的用于流式计算的数据处理方法, 其特征在于, 所述对预设数据进
行分区, 并将每 个所述分区内的数据划分成不同的分桶进行存 储, 包括:
利用预设的分区键将所述预设数据划分成不同的分区;
利用预设的分桶键将每 个所述分区内的数据划分为 不同的分桶;
创建与所述分桶数量 一致的数据表;
逐个将每 个所述分区内每 个所述分桶对应的数据存 储到同一所述数据表中。
3.如权利要求1所述的用于流式计算的数据处理方法, 其特征在于, 所述生成相应的新
增数据文件, 包括:
获取所述新增操作对应的新增操作记录;
解析所述新增操作记录得到新增操作数据信息, 其中, 所述新增操作数据信息包含待
操作数据表;
识别所述待操作数据表的表结构;
根据所述新增操作 数据信息生成与 所述待操作 数据表的表结构一致的数据文件, 将所
述数据文件作为 新增数据文件。
4.如权利要求1至3中任一项所述的用于流式计算的数据处理方法, 其特征在于, 所述
将所述新增数据文件及所述删除数据文件 存储到对应的分区及分桶中, 包括:
识别所述 新增数据文件 对应的分区键及分桶键;
利用所述 新增数据文件 对应的分区键 定位所述 新增数据文件所在的分区;
在所述新增数据文件所在的分区中, 根据 所述新增数据文件对应的分桶键定位所述新
增数据文件所在的分桶;
扫描所述新增数据文件所在的分桶中的数据表, 将所述新增数据文件插入到所述新增
数据文件所在的分桶中的数据表的最后一行。
5.如权利要求1所述的用于流式计算的数据处理方法, 其特征在于, 所述定时获取每个
所述分区及每 个所述分桶内的新增数据文件及删除数据文件进行合并, 包括:
根据预设的定时任务, 定时扫描所述预设数据的每 个所述分区及每 个所述分桶;
获取每个所述分区内每 个所述分桶中的新增数据文件及删除数据文件;
逐个将每个所述分桶内的新增数据文件及删除数据文件进行第 一次合并, 得到第 一合
并数据文件;
逐个将同一分区内所有所述第一 合并数据文件进行第二次合并得到所述 合并结果。权 利 要 求 书 1/2 页
2
CN 114756564 A
26.如权利要求5所述的用于流式计算的数据处理方法, 其特征在于, 所述获取每个所述
分区内每 个所述分桶中的新增数据文件及删除数据文件, 包括:
获取每个所述预设的定时任务的执 行时间点;
将预设的时间差与每 个所述执 行时间点相加, 得到文件覆盖时间段;
获取每个所述分区内每个所述分桶中所述文件覆盖时间段内产生的新增数据文件及
删除数据文件。
7.如权利要求5所述的用于流式计算的数据处理方法, 其特征在于, 所述逐个将每个所
述分桶内的新增数据文件及删除数据文件进行第一次合并, 得到第一 合并数据文件, 包括:
解析每个所述分桶内的新增数据文件及删除数据文本得到每个新增数据文件及每个
所述删除数据文件 对应的操作数据表及操作字段;
将每个所述分桶中同一所述操作数据表且同一所述操作字段对应的新增数据文件及
删除数据文件进行求和计算, 得到所述第一 合并数据文件。
8.一种用于流式计算的数据处 理装置, 其特 征在于, 所述装置包括:
数据分区及分桶模块, 用于对预设数据进行分区, 并将每个所述分区内的数据划分成
不同的分桶进行存 储;
数据增删文件生成模块, 用于监听到用户对所述预设数据执行新增操作或删除操作
时, 生成相应的新增数据文件及删除数据文件, 并将所述新增数据文件及所述删除数据文
件存储到对应的分区及分桶中;
数据增删文件合并模块, 用于定时获取每个所述分区及每个所述分桶内的新增数据文
件及删除数据文件进行合并得到合并结果, 根据所述合并结果刷新所述预设数据, 并删除
已合并的新增数据文件及已合并的删除数据文件;
数据更新处理模块, 用于监听到用户对所述预设数据执行更新操作时, 识别所述更新
操作对应的待更新数据所在的分桶, 从所述待更新数据所在的分桶中获取所述待更新数
据, 并根据所述更新操作更新所述待更新数据。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述指令被所述至少
一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任意一项 所述的用
于流式计算的数据处 理方法。
10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处
理器执行时实现如权利要求1至7中任意 一项所述的用于流式计算的数据处 理方法。权 利 要 求 书 2/2 页
3
CN 114756564 A
3
专利 用于流式计算的数据处理方法、装置、设备及介质
安全报告 >
其他 >
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-24 08:49:48上传分享