全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210444203.4 (22)申请日 2022.04.25 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 北京邮电大 学新科研楼627室 (72)发明人 宋美娜 董亚飞 鄂海红 欧中洪  张光卫 罗显宴 李国英 江志航  于勰 冯煜 郭京荆  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06Q 40/02(2012.01) G06N 3/08(2006.01) G06N 3/02(2006.01)G06F 16/25(2019.01) (54)发明名称 基于批流一体计算引擎的征信智能评估方 法和系统 (57)摘要 本申请提出了一种基于批流一体计算引擎 的征信智能评估 方法, 涉及征信智能评估技术领 域, 其中, 该方法包括: 通过Kafka获取多个维度 的用户征信数据, 并按照主题将用户征信数据划 分为待训练征信数据和待预测征信数据; 获取预 先训练的征信评估模型, 将待预测征信数据输入 至征信评估模型进行实时评估, 得到评估结果, 其中, 征信评估模型是通过待训练征信数据对原 始训练数据进行数据增量后, 利用增量后的训练 数据进行动态更新的。 本申请利用经典的神经网 络模型算法动态预测征信智能评分, 并且能够根 据实时流式征信数据实现评估模 型的在线学习, 同时能够结合历史规律与实时变化, 更新模型评 估效果, 消除模型的不稳定性, 从而提升征信智 能评估的准确率。 权利要求书2页 说明书10页 附图4页 CN 115018616 A 2022.09.06 CN 115018616 A 1.一种基于 批流一体计算引擎的征信 智能评估方法, 其特 征在于, 包括以下步骤: 通过Kafka获取多个维度的用户征信数据, 并按照主题将所述用户征信数据划分为待 训练征信数据和待预测征信数据; 获取预先训练 的征信评估模型, 将所述待预测征信数据输入至所述征信 评估模型进行 实时评估, 得到评估 结果, 其中, 所述征信评估模 型是通过所述待训练征信数据对原始训练 数据进行 数据增量后, 利用增量后的训练数据进行动态更新的。 2.如权利要求1所述的方法, 其特征在于, 所述通过Kafka获取多个维度的用户征信数 据, 并按照主题将所述用户征信数据划分为待训练征信数据和待预测征信数据, 包括: 使用支持异构数据源同步工具DataX同步多个维度的用户征信数据, 对所述用户征信 数据进行ETL处 理, 将经过ETL处理的用户征信数据统一汇聚至Kafka消息队列; 按照主题将Kafka消息队列中的用户征信数据划分为待训练征信数据和待预测征信数 据; 将所述待训练征信数据实时同步到 Hive仓库进行存 储。 3.如权利要求2所述的方法, 其特 征在于, 对所述征信评估 模型进行动态更新, 包括: 通过所述待训练征信数据对所述原 始训练数据进行 数据增量, 得到增量训练数据; 当所述增量训练数据达到预设数量要求或触发定时条件时, 对所述增量训练数据进行 预处理, 并将经过预处理的增量训练数据 发送至TensorFlow服务器, 同时将征信评估模型 发送至TensorFl ow服务器; 根据增量训练数据, 通过TensorFlow服务器对征信评估模型进行训练更新, 得到训练 后的征信评估 模型, 其中, 征信评估 模型更新, 表示 为: Mnew=train(Mold,Iinc) 其中, Mnew表示更新后的模型, Mold表示上一个阶段的旧模型, Iinc表示上一阶段到当前 阶段的增量训练数据。 4.如权利要求3所述的方法, 其特 征在于, 所述方法, 还 包括: 通过Kafka获取原始训练数据, 将所述原始训练数据实时同步到Hive仓库进行存储, 对 所述原始训练数据进行预处理, 并通过远程RPC的方式将经过预处理的原始训练数据发送 至TensorFl ow服务器, 以根据所述原 始训练数据构建征信评估 模型。 5.如权利要求4所述的方法, 其特征在于, 将所述待训练征信数据和所述原始训练数据 实时同步到 Hive仓库进行存 储, 包括: 采用Two Phase Commit协议将训练数据从Kafka实时 同步到Hive仓库进行存储, 其中, 所述训练数据包括待训练征信数据和原 始训练数据。 6.如权利要求5所述的方法, 其特征在于, 所述采用Two  Phase Commit协议将训练数据 从Kafka实时同步到 Hive仓库进行存 储, 包括: 通过作业管理器的Checkp oint模块定时给数据源节点发送Checkpoint  barrier, 以使 Checkpoint  barrier顺着数据流方向依次流入到Window和Data  Sink节点中, 在Window和 Data Sink节点收到Checkpoint  barrier后停止计算, 并将状态快照保存至高可用的持久 化存储组件中, 之后Window和Data  Sink节点分别向作业管理器的Checkpoint模块发送一 个ack确认;权 利 要 求 书 1/2 页 2 CN 115018616 A 2当所有节点完成状态快照保存时, 向Hive仓库预提交外部事务, 然后Hive仓库将数据 写入到指定位置中, 向作业管理器发送一个ack确认。 7.如权利要求6所述的方法, 其特征在于, 所述采用Two  Phase Commit协议将训练数据 从Kafka实时同步到 Hive仓库进行存 储, 还包括: 当作业管理器收到所有的ack确认之后, 通过作业管理器给各个节点发送状态快照完 成通知, 同时通过Data  Sink节点通过RPC向Hive仓库发送commit指令, 通过Hive仓库的事 务模块执 行commit操作, 完成数据的真正写入。 8.一种基于批流一体计算引擎的征信智能评估装置, 其特征在于, 包括, 获取模块、 评 估模块, 其中, 获取模块, 用于通过Kafka获取多个维度的用户征信数据, 并按照主题将所述用户征信 数据划分为待训练征信数据和待预测征信数据; 评估模块, 用于获取预先训练的征信评估模型, 将所述待预测征信数据输入至所述征 信评估模 型进行实时评估, 得到评估结果, 其中, 所述征信评估模型是通过所述待训练征信 数据对原 始训练数据进行 数据增量后, 利用增量后的训练数据进行动态更新的。 9.一种基于批流一体计算引擎的征信智能评估系统, 其特征在于, 包括: Kafka模块、 Hive仓库模块、 TensorFlow引擎模块、 模型与数据管理模块、 流计算模块、 评估服务模块, 其 中, Kafka模块, 用于实时接入多个维度的用户征信数据, 并按照主题将所述用户征信数据 划分为待训练征信数据和待 预测征信数据, 将待训练征信数据实时同步到Hive仓库进 行存 储, 并将待预测征信数据发送至流计算模块; Hive仓库模块, 用于存储训练数据, 将训练数据发送至TensorFlow引擎模块, 同时还用 于存储模型与数据管理模块发送的增量结果数据, 并基于增量结果数据进行 数据分析; TensorFlow引擎模块, 用于接收训练数据和征信评估模型, 对征信评估模型进行训练 更新, 并将更新后的征信评估 模型发送至模型与数据管理模块; 模型与数据管理模块, 用于定时将增量结果数据同步到Hive仓库中, 同时将征信评估 模型发送至TensorFl ow引擎, 还用于将更新后的征信评估 模型发送至流计算模块; 流计算模块, 用于定时从模型与数据管理模块拉取预先训练的征信评估模型, 同时实 时获取Kafka模块提供的待 预测征信数据, 进行DAG计算, 得到评估 结果, 将评估 结果发送至 评估服务模块; 同时, 将评估结果作为增量结果数据发送至模型与数据管理模块; 评估服务模块, 用于查询流计算模块得到的评估结果, 还可以查询历史数据做相关的 统计分析。 10.一种非临时性计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计 算机程序被处 理器执行时实现如权利要求1 ‑7中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115018616 A 3

.PDF文档 专利 基于批流一体计算引擎的征信智能评估方法和系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于批流一体计算引擎的征信智能评估方法和系统 第 1 页 专利 基于批流一体计算引擎的征信智能评估方法和系统 第 2 页 专利 基于批流一体计算引擎的征信智能评估方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:02:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。