全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210949375.7 (22)申请日 2022.08.09 (71)申请人 苏银凯基消费金融有限公司 地址 215300 江苏省苏州市昆山市花 桥经 济开发区光明路505号建淘广场2号楼 22、 23层 (72)发明人 张枫 林凯 陆皓 胡良芳  (74)专利代理 机构 南京钟山专利代理有限公司 32252 专利代理师 陈亮亮 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/23(2019.01) G06F 16/28(2019.01) G06Q 40/02(2012.01) (54)发明名称 一种基于缓慢变化维的贷款数据的数据回 刷方法 (57)摘要 本发明公开了一种基于缓慢变化维的贷款 数据的数据回刷方法, 对SCD维表进行治理, 确保 缓慢变化维回刷时只有唯一的根节点, 其中SCD 维表治理包含SCD冗余字段替换并下线冗余维表 和SCD维表隔离, 解耦冗余在数仓宽表层、 应用 层、 引擎层的SCD字段, 减少数仓侧回刷任务数, 基于治理和解耦后的SCD维表进行贷款数据的数 据回刷。 本发 明解决了不同维表之间数据一致性 问题, 并减少数据回刷成本, 保证了数据回刷前 后数据的一致性, 减少了数仓侧回刷任务数, 缩 短了回刷周期, 提高了刷数效率。 权利要求书2页 说明书6页 附图2页 CN 115292288 A 2022.11.04 CN 115292288 A 1.一种基于缓慢变化维的贷款数据的数据回刷方法, 其特 征在于包 含以下步骤: S1、 对SCD维表进行治 理, 确保缓慢变化维回刷时只有唯一的根节点, 其 中SCD维表治 理 包含SCD冗余字段替换并下线冗余维表和SCD维表隔离; S2、 解耦冗余在数仓 宽表层、 应用层、 引擎层的SCD字段, 减少数仓侧回刷任务数; S3、 基于治理和解耦后的SCD维表进行贷款数据的数据回刷。 2.根据权利要求1所述的一种基于缓慢变化维的贷款数据的数据回刷方法, 其特征在 于: 所述步骤S1中SCD冗余 替换并下线具体过程 为: 1) 通过确定SCD主维表中纬度信息, 整合相关的维度, 保证主维表中包含了所有必要的 维度; 2) 收口所有的SCD维度, 确保所有任务的SCD字段均来自主维表并下线相关的冗余SCD 维表。 3.根据权利要求2所述的一种基于缓慢变化维的贷款数据的数据回刷方法, 其特征在 于: 所述整合相关的维度具体包 含: 1.1) 梳理各个维度的主维表; 1.2) 梳理跟主维表有关联的从维表维度属性; 1.3) 如果主维表 跟从维表字段有冗余, 则 删除从维表的字段, 并修改下游 表的依赖; 1.4) 如果主维表跟从维表字段没有冗余, 则针对从维表中没有冗余的字段, 判断从维 表的没有冗余的字段是否能归入主维表中, 如果能归入则把从维表删除, 如果不能归入, 则 更改从维表的维度分类。 4.根据权利要求2所述的一种基于缓慢变化维的贷款数据的数据回刷方法, 其特征在 于: 所述SCD维度收口具体包 含: 2.1) 梳理出需要下线的维表; 2.2) 根据需要下线的维表 找出所有依赖的下游关联表; 2.3) 下游关联表更改代码到主维表。 5.根据权利要求1所述的一种基于缓慢变化维的贷款数据的数据回刷方法, 其特征在 于: 所述骤S1中SCD维表隔离具体过程 为: 在平台用户维度 数据与公司所用维度 数据之间建立隔离层, 每天对平台用户维度 数据 进行快照处理得到每日快照全量, 将每日快照全量存 储在隔离层; 当依赖平台用户维度 数据的下游表进行数据回刷时, 在隔离层中选定历史刷数 日期的 每日快照全量, 下游 表回刷隔离层中选 定的每日快照全量。 6.根据权利要求1所述的一种基于缓慢变化维的贷款数据的数据回刷方法, 其特征在 于: 所述步骤S2中解耦冗余在数仓 宽表层、 应用层、 引擎层的SCD字段 具体包含: A、 解耦下游关联成本低、 变更频次高的缓慢变化维, 冗余下游关联成本高、 变更频次低 的缓慢变化维; B、 在满足MPP数据库查询性能要求下, 进行应用层及引擎层模型SCD解耦, 将SCD的关联 下沉到MPP数据库中, 利用MP P的能力实现即席查询。 7.根据权利要求6所述的一种基于缓慢变化维的贷款数据的数据回刷方法, 其特征在 于: 所述步骤A具体包含: 首先通过解析各个任务的SQL来 获取到各个表的依赖关系, 构建出 DAG有向无环图, 获取到依赖宽表的下游表, 统计各个下游表依赖宽表的字段, 汇总出宽表权 利 要 求 书 1/2 页 2 CN 115292288 A 2各个字段的使用频次; 在进行宽表层缓慢变化维解耦时, 通过汇总 出来的各个字段 的使用 频次来查看, 若SCD字段的使用频次小于预设的阈值, 直接解耦。 8.根据权利要求6所述的一种基于缓慢变化维的贷款数据的数据回刷方法, 其特征在 于: 所述步骤B具体包含: 将缓SCD维表导入到MPP数据库中; 改写MPP数据库引 擎层查询逻 辑, 实现应用层缓慢变化维字段解耦。 9.根据权利要求8所述的一种基于缓慢变化维的贷款数据的数据回刷方法, 其特征在 于: 所述MP P数据库引擎层查询逻辑改写过程 为: 查询逻辑中删除原有的事实表中的维度字段; 查询逻辑中新增关联维表逻辑。权 利 要 求 书 2/2 页 3 CN 115292288 A 3

PDF文档 专利 一种基于缓慢变化维的贷款数据的数据回刷方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于缓慢变化维的贷款数据的数据回刷方法 第 1 页 专利 一种基于缓慢变化维的贷款数据的数据回刷方法 第 2 页 专利 一种基于缓慢变化维的贷款数据的数据回刷方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:40:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。