专利基于批流一体计算引擎的征信智能评估方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210444203.4 (22)申请日 2022.04.25 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号北京邮电大学新科研楼627室 (72)发明人宋美娜　董亚飞　鄂海红　欧中洪　张光卫　罗显宴　李国英　江志航　于勰　冯煜　郭京荆　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师单冠飞 (51)Int.Cl. G06Q 40/02(2012.01) G06N 3/08(2006.01) G06N 3/02(2006.01)G06F 16/25(2019.01) (54)发明名称基于批流一体计算引擎的征信智能评估方法和系统 (57)摘要本申请提出了一种基于批流一体计算引擎的征信智能评估方法，涉及征信智能评估技术领域，其中，该方法包括：通过Kafka获取多个维度的用户征信数据，并按照主题将用户征信数据划分为待训练征信数据和待预测征信数据；获取预先训练的征信评估模型，将待预测征信数据输入至征信评估模型进行实时评估，得到评估结果，其中，征信评估模型是通过待训练征信数据对原始训练数据进行数据增量后，利用增量后的训练数据进行动态更新的。本申请利用经典的神经网络模型算法动态预测征信智能评分，并且能够根据实时流式征信数据实现评估模型的在线学习，同时能够结合历史规律与实时变化，更新模型评估效果，消除模型的不稳定性，从而提升征信智能评估的准确率。权利要求书2页说明书10页附图4页 CN 115018616 A 2022.09.06 CN 115018616 A 1.一种基于批流一体计算引擎的征信智能评估方法，其特征在于，包括以下步骤：通过Kafka获取多个维度的用户征信数据，并按照主题将所述用户征信数据划分为待训练征信数据和待预测征信数据；获取预先训练的征信评估模型，将所述待预测征信数据输入至所述征信评估模型进行实时评估，得到评估结果，其中，所述征信评估模型是通过所述待训练征信数据对原始训练数据进行数据增量后，利用增量后的训练数据进行动态更新的。 2.如权利要求1所述的方法，其特征在于，所述通过Kafka获取多个维度的用户征信数据，并按照主题将所述用户征信数据划分为待训练征信数据和待预测征信数据，包括：使用支持异构数据源同步工具DataX同步多个维度的用户征信数据，对所述用户征信数据进行ETL处理，将经过ETL处理的用户征信数据统一汇聚至Kafka消息队列；按照主题将Kafka消息队列中的用户征信数据划分为待训练征信数据和待预测征信数据；将所述待训练征信数据实时同步到 Hive仓库进行存储。 3.如权利要求2所述的方法，其特征在于，对所述征信评估模型进行动态更新，包括：通过所述待训练征信数据对所述原始训练数据进行数据增量，得到增量训练数据；当所述增量训练数据达到预设数量要求或触发定时条件时，对所述增量训练数据进行预处理，并将经过预处理的增量训练数据发送至TensorFlow服务器，同时将征信评估模型发送至TensorFl ow服务器；根据增量训练数据，通过TensorFlow服务器对征信评估模型进行训练更新，得到训练后的征信评估模型，其中，征信评估模型更新，表示为： Mnew＝train(Mold,Iinc) 其中， Mnew表示更新后的模型， Mold表示上一个阶段的旧模型， Iinc表示上一阶段到当前阶段的增量训练数据。 4.如权利要求3所述的方法，其特征在于，所述方法，还包括：通过Kafka获取原始训练数据，将所述原始训练数据实时同步到Hive仓库进行存储，对所述原始训练数据进行预处理，并通过远程RPC的方式将经过预处理的原始训练数据发送至TensorFl ow服务器，以根据所述原始训练数据构建征信评估模型。 5.如权利要求4所述的方法，其特征在于，将所述待训练征信数据和所述原始训练数据实时同步到 Hive仓库进行存储，包括：采用Two Phase Commit协议将训练数据从Kafka实时同步到Hive仓库进行存储，其中，所述训练数据包括待训练征信数据和原始训练数据。 6.如权利要求5所述的方法，其特征在于，所述采用Two Phase Commit协议将训练数据从Kafka实时同步到 Hive仓库进行存储，包括：通过作业管理器的Checkp oint模块定时给数据源节点发送Checkpoint barrier，以使 Checkpoint barrier顺着数据流方向依次流入到Window和Data Sink节点中，在Window和 Data Sink节点收到Checkpoint barrier后停止计算，并将状态快照保存至高可用的持久化存储组件中，之后Window和Data Sink节点分别向作业管理器的Checkpoint模块发送一个ack确认；权　利　要　求　书 1/2 页 2 CN 115018616 A 2当所有节点完成状态快照保存时，向Hive仓库预提交外部事务，然后Hive仓库将数据写入到指定位置中，向作业管理器发送一个ack确认。 7.如权利要求6所述的方法，其特征在于，所述采用Two Phase Commit协议将训练数据从Kafka实时同步到 Hive仓库进行存储，还包括：当作业管理器收到所有的ack确认之后，通过作业管理器给各个节点发送状态快照完成通知，同时通过Data Sink节点通过RPC向Hive仓库发送commit指令，通过Hive仓库的事务模块执行commit操作，完成数据的真正写入。 8.一种基于批流一体计算引擎的征信智能评估装置，其特征在于，包括，获取模块、评估模块，其中，获取模块，用于通过Kafka获取多个维度的用户征信数据，并按照主题将所述用户征信数据划分为待训练征信数据和待预测征信数据；评估模块，用于获取预先训练的征信评估模型，将所述待预测征信数据输入至所述征信评估模型进行实时评估，得到评估结果，其中，所述征信评估模型是通过所述待训练征信数据对原始训练数据进行数据增量后，利用增量后的训练数据进行动态更新的。 9.一种基于批流一体计算引擎的征信智能评估系统，其特征在于，包括： Kafka模块、 Hive仓库模块、 TensorFlow引擎模块、模型与数据管理模块、流计算模块、评估服务模块，其中， Kafka模块，用于实时接入多个维度的用户征信数据，并按照主题将所述用户征信数据划分为待训练征信数据和待预测征信数据，将待训练征信数据实时同步到Hive仓库进行存储，并将待预测征信数据发送至流计算模块； Hive仓库模块，用于存储训练数据，将训练数据发送至TensorFlow引擎模块，同时还用于存储模型与数据管理模块发送的增量结果数据，并基于增量结果数据进行数据分析； TensorFlow引擎模块，用于接收训练数据和征信评估模型，对征信评估模型进行训练更新，并将更新后的征信评估模型发送至模型与数据管理模块；模型与数据管理模块，用于定时将增量结果数据同步到Hive仓库中，同时将征信评估模型发送至TensorFl ow引擎，还用于将更新后的征信评估模型发送至流计算模块；流计算模块，用于定时从模型与数据管理模块拉取预先训练的征信评估模型，同时实时获取Kafka模块提供的待预测征信数据，进行DAG计算，得到评估结果，将评估结果发送至评估服务模块；同时，将评估结果作为增量结果数据发送至模型与数据管理模块；评估服务模块，用于查询流计算模块得到的评估结果，还可以查询历史数据做相关的统计分析。 10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1 ‑7中任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115018616 A 3

专利 基于批流一体计算引擎的征信智能评估方法和系统

专利基于批流一体计算引擎的征信智能评估方法和系统