全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211370917.1 (22)申请日 2022.11.03 (71)申请人 华夏基金管理有限公司 地址 100033 北京市顺 义区安庆大街甲3号 院 (72)发明人 徐诗雯 林世福 安军辉  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王云晓 (51)Int.Cl. G06F 16/2453(2019.01) G06F 16/2455(2019.01) G06F 16/27(2019.01) (54)发明名称 一种数据处 理方法及装置 (57)摘要 本发明提供了一种数据处理方法及装置, 数 据处理方法包括: 根据设定的计算并行度和从参 与计算的增量数据表中选取的分区字段, 确定增 量数据表对应的分区规则, 分区规则用于指示针 对增量数据表设定的逻辑分区的数量, 以及划分 至每个逻辑 分区中的增量数据; 根据分区规则分 布式读取增量数据表中的增量数据到设置的对 应逻辑分区中; 从数据库中各用户的存量数据中 分布式读取与各逻辑分区中的增量数据关联的 最新历史数据; 将与各逻辑分区中的增量数据关 联的最新历史数据与各逻辑分区中的增量数据 进行计算。 本发 明在不改变数据库存储模式的前 提下, 能够实现对于数据的分布式读写和计算, 其具有较高的数据处理效率, 能够满足数据处理 的高时效要求。 权利要求书2页 说明书10页 附图3页 CN 115544075 A 2022.12.30 CN 115544075 A 1.一种数据处 理方法, 其特 征在于, 应用于处 理设备, 所述方法包括: 根据设定的计算并行度和从参与计算的增量数据表中选取的分区字段, 确定所述增量 数据表对应的分区规则, 其中, 所述分区规则用于指示针对所述增量数据表设定的逻辑分 区的数量, 以及划分至每 个逻辑分区中的增量数据; 根据所述增量数据表对应的分区规则, 分布式读取所述增量数据表中的增量数据到设 置的对应逻辑分区中; 从所述数据库中各用户的存量数据中分布式读取与各逻辑分区中的增量数据关联的 最新历史数据; 将与各逻辑分区中的增量数据关联的最新历史数据与各逻辑分区中的增量数据进行 计算。 2.根据权利要求1所述的数据处理方法, 其特征在于, 所述根据设定的计算并行度和从 参与计算的增量数据表中选取的分区字段, 确定所述增量数据表对应的分区规则, 包括: 根据所述计算并行度, 确定 逻辑分区的数量, 并确定所述分区字段的末尾截取长度; 根据所述分区字段的末尾截取长度, 确定所述分区字段的末尾截取 范围; 根据所述分区字段的末尾截取范围, 确定划分至每个逻辑分区中的增量数据, 以得到 所述增量数据表对应的分区规则。 3.根据权利要求1所述的数据处理方法, 其特征在于, 所述根据 所述增量数据表对应的 分区规则, 分布式读取 所述增量数据表中的增量数据到设置的对应逻辑分区中, 包括: 根据所述增量数据表对应的分区规则, 生成数据查询语句; 利用所述数据查询语句, 从所述增量数据表中分布式读取增量数量到设置的对应逻辑 分区中。 4.根据权利要求3所述的数据处理方法, 其特征在于, 所述根据 所述增量数据表对应的 分区规则, 生成数据查询语句, 包括: 根据所述增量数据表对应的分区规则, 确定针对每 个逻辑分区要读取的增量数据; 根据所述针对每个逻辑分区要读取的增量数据, 生成每个逻辑分区对应的数据查询语 句。 5.根据权利要求1所述的数据处理方法, 其特征在于, 所述从所述数据库中各用户的存 量数据中分布式读取与各逻辑分区中的增量数据关联的最 新历史数据, 包括: 将每个逻辑分区中具有相同分区字段信 息的多条增量数据汇总成一条, 只保留一个分 区字段信息, 所述分区字段信息为所述分区字段对应的具体字段值; 从所述数据库中各用户的存量数据中读取各逻辑分区中的增量数据所属用户的全部 存量数据; 基于设定的筛选维度, 从各逻辑分区中的增量数据所属用户的全部存量数据中, 筛选 出与各逻辑分区中的增量数据关联的最 新历史数据。 6.根据权利要求5所述的数据处理方法, 其特征在于, 所述从所述数据库中各用户的存 量数据中读取 各逻辑分区中的增量数据所属用户的全部存量数据, 包括: 基于所述计算并行度、 各逻辑分区中的分区字段信 息的总数量以及数据查询语句的最 大查询数量, 确定与所述数据库的交 互次数; 基于所述交互次数, 分批从所述数据库中各用户的存量数据中读取各逻辑分区中的增权 利 要 求 书 1/2 页 2 CN 115544075 A 2量数据所属用户的全部存量数据。 7.一种数据处理装置, 其特征在于, 包括: 分区规则确定模块、 增量数据读取模块、 存量 数据读取模块和数据计算模块; 所述分区规则确定模块, 用于根据设定的计算并行度和从参与计算的增量数据表中选 取的分区字段, 确定所述增量数据表对应的分区规则, 其中, 所述分区规则用于指示针对所 述增量数据表设定的逻辑分区的数量, 以及划分至每 个逻辑分区中的增量数据; 所述增量数据读取模块, 用于根据所述增量数据表对应的分区规则, 分布式读取所述 增量数据表中的增量数据到设置的对应逻辑分区中; 所述存量数据读取模块, 用于从所述数据库中各用户的存量数据中分布式读取与 各逻 辑分区中的增量数据关联的最 新历史数据; 所述数据计算模块, 用于将与各逻辑分区中的增量数据关联的最新历史数据与各逻辑 分区中的增量数据进行计算。 8.根据权利要求7所述的数据处理装置, 其特征在于, 所述分区规则确定模块包括: 分 区数量确定子模块、 末尾截取长度确定子模块、 末尾截取范围确定子模块和分区规则确定 子模块; 所述分区数量确定 子模块, 用于根据所述计算并行度, 确定 逻辑分区的数量; 所述末尾截取长度确定子模块, 用于根据所述计算并行度, 确定所述分区字段的末尾 截取长度; 所述末尾截取范围确定子模块, 用于根据所述分区字段的末尾截取长度, 确定所述分 区字段的末尾截取 范围; 所述分区规则确定子模块, 用于根据所述分区字段的末尾截取范围, 确定划分至每个 逻辑分区中的增量数据, 以得到所述增量数据表对应的分区规则。 9.根据权利要求7所述的数据处理装置, 其特征在于, 所述增量数据读取模块包括: 查 询语句生成子模块和数据读取子模块; 所述查询语句生成子模块, 用于根据所述增量数据表对应的分区规则, 生成数据查询 语句; 所述数据读取子模块, 用于利用所述数据查询语句, 从所述增量数据表中分布式读取 增量数量到设置的对应逻辑分区中。 10.根据权利要求7所述的数据处理方法, 其特征在于, 所述存量数据读取模块包括: 数 据预处理子模块、 存量数据读取子模块和数据筛 选子模块; 所述数据 预处理子模块, 用于将每个逻辑分区中具有相同分区字段信 息的多条增量数 据汇总成一条, 只保留一个分区字段信息, 所述分区字段信息为所述分区字段对应的具体 字段信息; 所述存量数据读取子模块, 用于从所述数据库中各用户的存量数据中读取各逻辑分区 中的增量数据所属用户的全部存量数据; 所述数据筛选子模块, 用于基于设定的筛选维度, 从各逻辑分区中的增量数据所属用 户的全部存量数据中, 筛 选出与各逻辑分区中的增量数据关联的最 新历史数据。权 利 要 求 书 2/2 页 3 CN 115544075 A 3

.PDF文档 专利 一种数据处理方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据处理方法及装置 第 1 页 专利 一种数据处理方法及装置 第 2 页 专利 一种数据处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:49:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。