(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211054171.3
(22)申请日 2022.08.31
(71)申请人 广东工业大 学
地址 510000 广东省广州市东 风东路729号
(72)发明人 邵长城 张成科
(74)专利代理 机构 长沙轩荣专利代理有限公司
43235
专利代理师 张慧敏
(51)Int.Cl.
G06Q 40/02(2012.01)
G06F 16/2455(2019.01)
(54)发明名称
一种基于实时流数据的在线金融风控 模型
(57)摘要
本发明涉及金融风控技术领域, 提出了一种
基于实时流数据的在线金融风控模 型方法, 步骤
包括: 步骤1): 采集单元获取目标数据集, 并对实
时数据和离线数据进行整合; 步骤2): 对数据中
的缺失值和异常值进行处理, 提高模 型的泛化能
力; 步骤3): 结合金融风控的业务背景, 对原始数
据进行工程性处理, 挖掘数据中的潜在价值; 步
骤4): 通过stacking融合方式对几个金融风控机
器学习算法模 型进行融合, 根据实时采集的数据
集实时更新风险预测模型。 在本发明中, 解决了
现有金融模型不能及时识别风险并进行预警或
者风控的问题, 提出一种基于实时流数据的在线
金融风控模型, 运用实时数据进行模型训练, 显
著提升了金融风控预测的实时性与准确性。
权利要求书2页 说明书5页 附图2页
CN 115393060 A
2022.11.25
CN 115393060 A
1.一种基于实时流数据的在线金融风控 模型, 其特 征在于,包括以下模块:
数据采集模块;
数据预处 理模块;
特征工程模块;
风控评估 模块。
2.如权利要求1所述的一种基于实时流数据的在线金融风控模型, 其特征在于, 所述数
据采集模块具体包括:
步骤1.1, 通过实时数据采集单元与外部数据平台对接, 获取实时的流式交易数据, 并
将该时刻的流式数据存储到数据存储系统和高速缓存中, 高速缓存移除上一时刻的流式数
据, 并将该时刻的流式数据存储到高速缓存中, 所述外部数据 平台, 用于将银行、 ATM机、 POS
机等的实时交易数据向所述实时数据采集单 元传输;
步骤1.2, 通过批量数据采集单元与数据存储系统连接, 抽取批量离线数据; 所述离线
数据为过往的用户交易记录;
步骤1.3, 数据整合单元对数据进行清洗与集成, 对实时数据与离线数据的数据格 式进
行格式化,清洗冗余数据, 并对实时数据与离线 数据进行整合从而获得集成数据, 将集 成数
据发送至数据预处 理模块。
3.如权利要求1所述的一种基于实时流数据的在线金融风控模型, 其特征在于, 所述数
据预处理模块具体包括:
步骤2.1, 缺失值处理单元, 根据初始设定的阈值, 对有缺失字段的数据分为两大部分,
直接删除缺 失字段数目小于阈值且重要字段没有缺失的数据项, 对缺失字段数目较多或是
缺失重要字段的数据项 进行中位数填充;
上述重要字段为身份 证号、 金额、 贷款类型、 时间等对 模型影响比重较大 大的字段;
步骤2.2, 异常值处 理单元, 采用标准差判断法, 计算出当前字段的标准差为:
其中N表示数据项的总数, μ表示该字段在全部数据项中的平均值;
若该字段的数值与平均值μ的偏差超过标准差的值的三倍, 则认为该字段的数值超出
了样本数据的正常范围, 将该字段的数据标记为异常值进行后续处 理;
步骤2.3, 样本均衡单元, 利用SMOTE算法合成新的少 数类样本, 先利用K ‑近邻算法, 选
择离样本点xi最近的k个同类样本点, 并从中随机挑选M个样本点, 对于每一个随机选中的
样本点, 构造新的样本点xnew, 公式为:
xnew=xi+rand(0,1)*(xj‑xi),j=1,2, …,M
其中xi表示少数类别中的一个样本点, xj表示K‑近邻算法中随机挑选的样本点; rand
(0,1)表示 生成0‑1的随机数。
4.如权利要求1所述的一种基于实时流数据的在线金融风控模型, 其特征在于, 所述特
征工程模块具体包括:
步骤3.1, 类别特征编码单元, 将数据集中涉及到的类别型特征把其对应的类别特征转
换为模型 可以识别的类型, 类别型 特征如性别、 学历、 民族和贷款类型等;
步骤3.2, 特征组合单元, 通过把用户的多个字段进行融合生成新的字段, 使得后续模权 利 要 求 书 1/2 页
2
CN 115393060 A
2型学习到更深层次的信息, 使用因子分解机, 将稀疏数据Embedding向低维度表达, 形成一
个稠密的特征向量, 对于每个组合特征wixi, 训练出两组一维向量的内积<vi,vj>来替代权
重值:
其中, w0表示常数项,
表示一阶线性模型,
χiχj表
示二阶特征交叉模型。
5.如权利要求1所述的一种基于实时流数据的在线金融风控模型, 其特征在于, 所述风
控评估模块具体包括:
步骤4.1, 定义第 一层基础学习器集合为M={f1,f2,…,fn}, 其中, fi为各个优选的金融
风控模型;
步骤4.2, 划分数据集, 采用随机抽样将数据集D平均划分为n份, n的大小与基础学习器
的数量对应D={D1,D2,…,Dn};
步骤4.3, 训练第一层基础学习器, 单个基础学习器f1对应的测试集为D1, 训练集D为中
除Di外的数据, 基于训练集的数据进行训练之后对测试集进行预测, 结果记为Yi, 所以基础
学习器的预测结果集合作为框架第二层模型的输入Dnew={Y1,Y2,Y3,…,Yn}, 该新数据集与
原始数据集D的行 数相同;
步骤4.4, 选择第二层基础学习器并输出结果, 从M中选择基础学习器, 以Dnew为输入数
据, 并以AUC为衡量指标选择最优的模型作为第二层的学习器, 输出 结果为Ys=f(Dnew)。权 利 要 求 书 2/2 页
3
CN 115393060 A
3
专利 一种基于实时流数据的在线金融风控模型
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:15:20上传分享