专利 一种数据处理方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211370917.1 (22)申请日 2022.11.03 (71)申请人华夏基金管理有限公司地址 100033 北京市顺义区安庆大街甲3号院 (72)发明人徐诗雯　林世福　安军辉　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师王云晓 (51)Int.Cl. G06F 16/2453(2019.01) G06F 16/2455(2019.01) G06F 16/27(2019.01) (54)发明名称一种数据处理方法及装置 (57)摘要本发明提供了一种数据处理方法及装置，数据处理方法包括：根据设定的计算并行度和从参与计算的增量数据表中选取的分区字段，确定增量数据表对应的分区规则，分区规则用于指示针对增量数据表设定的逻辑分区的数量，以及划分至每个逻辑分区中的增量数据；根据分区规则分布式读取增量数据表中的增量数据到设置的对应逻辑分区中；从数据库中各用户的存量数据中分布式读取与各逻辑分区中的增量数据关联的最新历史数据；将与各逻辑分区中的增量数据关联的最新历史数据与各逻辑分区中的增量数据进行计算。本发明在不改变数据库存储模式的前提下，能够实现对于数据的分布式读写和计算，其具有较高的数据处理效率，能够满足数据处理的高时效要求。权利要求书2页说明书10页附图3页 CN 115544075 A 2022.12.30 CN 115544075 A 1.一种数据处理方法，其特征在于，应用于处理设备，所述方法包括：根据设定的计算并行度和从参与计算的增量数据表中选取的分区字段，确定所述增量数据表对应的分区规则，其中，所述分区规则用于指示针对所述增量数据表设定的逻辑分区的数量，以及划分至每个逻辑分区中的增量数据；根据所述增量数据表对应的分区规则，分布式读取所述增量数据表中的增量数据到设置的对应逻辑分区中；从所述数据库中各用户的存量数据中分布式读取与各逻辑分区中的增量数据关联的最新历史数据；将与各逻辑分区中的增量数据关联的最新历史数据与各逻辑分区中的增量数据进行计算。 2.根据权利要求1所述的数据处理方法，其特征在于，所述根据设定的计算并行度和从参与计算的增量数据表中选取的分区字段，确定所述增量数据表对应的分区规则，包括：根据所述计算并行度，确定逻辑分区的数量，并确定所述分区字段的末尾截取长度；根据所述分区字段的末尾截取长度，确定所述分区字段的末尾截取范围；根据所述分区字段的末尾截取范围，确定划分至每个逻辑分区中的增量数据，以得到所述增量数据表对应的分区规则。 3.根据权利要求1所述的数据处理方法，其特征在于，所述根据所述增量数据表对应的分区规则，分布式读取所述增量数据表中的增量数据到设置的对应逻辑分区中，包括：根据所述增量数据表对应的分区规则，生成数据查询语句；利用所述数据查询语句，从所述增量数据表中分布式读取增量数量到设置的对应逻辑分区中。 4.根据权利要求3所述的数据处理方法，其特征在于，所述根据所述增量数据表对应的分区规则，生成数据查询语句，包括：根据所述增量数据表对应的分区规则，确定针对每个逻辑分区要读取的增量数据；根据所述针对每个逻辑分区要读取的增量数据，生成每个逻辑分区对应的数据查询语句。 5.根据权利要求1所述的数据处理方法，其特征在于，所述从所述数据库中各用户的存量数据中分布式读取与各逻辑分区中的增量数据关联的最新历史数据，包括：将每个逻辑分区中具有相同分区字段信息的多条增量数据汇总成一条，只保留一个分区字段信息，所述分区字段信息为所述分区字段对应的具体字段值；从所述数据库中各用户的存量数据中读取各逻辑分区中的增量数据所属用户的全部存量数据；基于设定的筛选维度，从各逻辑分区中的增量数据所属用户的全部存量数据中，筛选出与各逻辑分区中的增量数据关联的最新历史数据。 6.根据权利要求5所述的数据处理方法，其特征在于，所述从所述数据库中各用户的存量数据中读取各逻辑分区中的增量数据所属用户的全部存量数据，包括：基于所述计算并行度、各逻辑分区中的分区字段信息的总数量以及数据查询语句的最大查询数量，确定与所述数据库的交互次数；基于所述交互次数，分批从所述数据库中各用户的存量数据中读取各逻辑分区中的增权　利　要　求　书 1/2 页 2 CN 115544075 A 2量数据所属用户的全部存量数据。 7.一种数据处理装置，其特征在于，包括：分区规则确定模块、增量数据读取模块、存量数据读取模块和数据计算模块；所述分区规则确定模块，用于根据设定的计算并行度和从参与计算的增量数据表中选取的分区字段，确定所述增量数据表对应的分区规则，其中，所述分区规则用于指示针对所述增量数据表设定的逻辑分区的数量，以及划分至每个逻辑分区中的增量数据；所述增量数据读取模块，用于根据所述增量数据表对应的分区规则，分布式读取所述增量数据表中的增量数据到设置的对应逻辑分区中；所述存量数据读取模块，用于从所述数据库中各用户的存量数据中分布式读取与各逻辑分区中的增量数据关联的最新历史数据；所述数据计算模块，用于将与各逻辑分区中的增量数据关联的最新历史数据与各逻辑分区中的增量数据进行计算。 8.根据权利要求7所述的数据处理装置，其特征在于，所述分区规则确定模块包括：分区数量确定子模块、末尾截取长度确定子模块、末尾截取范围确定子模块和分区规则确定子模块；所述分区数量确定子模块，用于根据所述计算并行度，确定逻辑分区的数量；所述末尾截取长度确定子模块，用于根据所述计算并行度，确定所述分区字段的末尾截取长度；所述末尾截取范围确定子模块，用于根据所述分区字段的末尾截取长度，确定所述分区字段的末尾截取范围；所述分区规则确定子模块，用于根据所述分区字段的末尾截取范围，确定划分至每个逻辑分区中的增量数据，以得到所述增量数据表对应的分区规则。 9.根据权利要求7所述的数据处理装置，其特征在于，所述增量数据读取模块包括：查询语句生成子模块和数据读取子模块；所述查询语句生成子模块，用于根据所述增量数据表对应的分区规则，生成数据查询语句；所述数据读取子模块，用于利用所述数据查询语句，从所述增量数据表中分布式读取增量数量到设置的对应逻辑分区中。 10.根据权利要求7所述的数据处理方法，其特征在于，所述存量数据读取模块包括：数据预处理子模块、存量数据读取子模块和数据筛选子模块；所述数据预处理子模块，用于将每个逻辑分区中具有相同分区字段信息的多条增量数据汇总成一条，只保留一个分区字段信息，所述分区字段信息为所述分区字段对应的具体字段信息；所述存量数据读取子模块，用于从所述数据库中各用户的存量数据中读取各逻辑分区中的增量数据所属用户的全部存量数据；所述数据筛选子模块，用于基于设定的筛选维度，从各逻辑分区中的增量数据所属用户的全部存量数据中，筛选出与各逻辑分区中的增量数据关联的最新历史数据。权　利　要　求　书 2/2 页 3 CN 115544075 A 3

专利 一种数据处理方法及装置

专利一种数据处理方法及装置