全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210407035.1 (22)申请日 2022.04.18 (71)申请人 工银瑞信基金 管理有限公司 地址 100033 北京市西城区金融大街5号 新 盛大厦A座 (72)发明人 李孜 杨帆 吴皓 孙彦杰  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 张琛 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 40/02(2012.01) G06N 20/20(2019.01) G06N 5/00(2006.01)G06K 9/62(2022.01) (54)发明名称 基于类别不平衡机器学习框架的债券违约 预测方法和装置 (57)摘要 本公开提供了一种基于类别不平衡机器学 习框架的债券违约预测方法、 装置、 设备、 介质和 产品, 所述方法包括: 获取 发债主体的相关数据; 对获取的所述发债主体的相关数据进行预处理; 从发债主体的相关数据中选择对模型训练贡献 度最高的特征; 使用选择的所述发债主体的所述 年度财务报表数据的特征和所述发债主体的首 次违约标签, 构造训练集和测试集, 基于所述训 练集和测试集并使用Self  Paced Ensemble集成 学习方法来进行模型训练, 并选择最优模型; 部 署所述最优模 型, 并使用所述最优模 型进行债券 违约预测。 本公开通过选择对模 型训练贡献度最 高的特征并使用Self  Paced Ensemble方法来训 练预测模型, 实现更加准确的债券违约预测。 权利要求书6页 说明书14页 附图3页 CN 114676932 A 2022.06.28 CN 114676932 A 1.一种基于类别不平衡机器学习框架的债券违约预测方法, 其特征在于, 所述预测方 法包括: 从发债主体的相关数据中选择对模型训练贡献度最高的特征, 所述相关数据包括发债 主体的年度财务报表数据和违约情况 数据; 使用选择的所述发债主体的所述年度财务报表数据的特征和所述发债主体的首次违 约标签, 构造训练集和测试集, 基于所述训练集和测试集并使用Self  Paced Ensemble集 成 学习方法来进行模型训练, 并选择最优 模型; 部署所述 最优模型, 并使用所述 最优模型进行债券违约预测。 2.根据权利要求1所述的基于类别不平衡机器学习框架的债券违约预测方法, 其特征 在于, 在所述从发债主体的相关数据中选择对模型训练贡献度最高的特征之前, 所述方法 还包括: 获取发债主体的相关数据; 对获取的所述发债主体的相关数据进行 预处理。 3.根据权利要求2所述的基于类别不平衡机器学习框架的债券违约预测方法, 其特征 在于, 所述获取发债主体的相关数据, 具体包括: 从数据库中获取发债主体的资产负债表、 利润表、 现金流量表、 财务指标、 债券违约报 表、 债券分类板块、 债券概念板块、 中债登收益率曲线, 筛选出全部信用债发债主体, 从 中剔 除城投债, 并获取所述信用债发债主体的年度财务报表数据, 判断信用债发债主体是否违 约, 对信用债发债主体是否违约进行 标记, 同时设置所属发债主体的首次违约标签。 4.根据权利要求2所述的基于类别不平衡机器学习框架的债券违约预测方法, 其特征 在于, 所述对获取的所述发债主体的相关数据进行 预处理, 包括: 统计所述发债主体的相关数据的特征的缺失率、 去除所述发债主体的相关数据的特征 的异常值、 对所述发债主体的相关数据的特 征进行分箱处 理。 5.根据权利要求1所述的基于类别不平衡机器学习框架的债券违约预测方法, 其特征 在于, 所述从发债主体的相关数据中选择对 模型训练贡献度最高的特 征, 具体包括: 计算所述发债主体的相关数据的特征的单变量相关性、 多变量相关性、 IV值、 信息熵和 基尼系数, 结合 业务经验, 从中选择对 模型训练贡献度最高的特 征。 6.根据权利要求1所述的基于类别不平衡机器学习框架的债券违约预测方法, 其特征 在于, 所述构造训练集和测试集, 基于所述训练集和测试集并使用Self  Paced Ensemble集 成学习方法来进行模型训练, 并选择最优 模型, 具体包括: 确定集成学习框架中的基分类 器; 将包含所述选择的所述发债主体的所述年度财务报表数据的特征和所述发债主体的 首次违约标签的数据集划分为训练集和 测试集; 基于所述训练集和测试集并使用Self  Paced Ensemble集成学习方法来进行模型训 练; 选择最优 模型。 7.根据权利要求6所述的基于类别不平衡机器学习框架的债券违约预测方法, 其特征 在于, 所述确 定集成学习框架 中的基分类器, 具体包括: 具体包括: 将LightGBM二分类分类 器确定为 集成学习框架中的基分类 器, 所述LightGBM二分类分类 器包含了多棵决策树。权 利 要 求 书 1/6 页 2 CN 114676932 A 28.根据权利要求6所述的基于类别不平衡机器学习框架的债券违约预测方法, 其特征 在于, 所述将包含所述选择的所述发债主体的所述年度财务报表数据的特征和所述 发债主 体的首次违约标签的数据集划分为训练集和测试集, 具体包括: 使用5折交叉验证法将包含 所述选择 的所述发债主体的所述年度财务报表数据的特征和所述发债主体的首次违约标 签的数据集划分为训练集和 测试集。 9.根据权利要求8所述的基于类别不平衡机器学习框架的债券违约预测方法, 其特征 在于, 所述使用5折交叉验证法将包含所述选择 的所述发债主体的所述年度财务报表数据 的特征和所述发债主体的首次违约标签的数据集划分为训练集和 测试集, 具体包括: 将包含所述选择的所述发债主体的所述年度财务报表数据的特征和所述发债主体的 首次违约标签的数据集随机划分为5份, 每一次选取其中的4份作为训练集, 剩余的1份作为 测试集, 重复上述选取步骤五次, 每次选取的训练集是不同的。 10.根据权利要求6 ‑9中的任一项所述的基于类别不平衡机器学习框架的债券违约预 测方法, 其特征在于, 所述基于所述训练集和测试集并使用Self  Paced Ensemble集 成学习 方法来进行模型训练, 具体包括: 1)初始化训练集D中的少数样本P和多数样本N; 2)使用所述多数样本N中随机欠采样的子集N0和所述少数样本P训练第1个基分类器f0, N0和P的数量 一致, 即|N0’|=|P|; 3)将到目前为止所有基分类 器的和作为 集成模型 Fi, 即: 其中, i表示已经训练的基分类 器的总数, 其 最大值为n; 4)将所述多数样本N根据分类硬度分箱成k组B1, B2,…, Bk, 对于给定的模型F( ·)和(x, y), 样本分类 硬度HX=H(x, y, F), 其中, H为分类 硬度函数, k 为分箱数量; 5)计算每 个分箱的平均分类 硬度, 第1个分箱的平均硬度为 6)更新自步因子 7)根据分类 硬度和自步因子计算每 个分箱的采样权 重p1, 其中: 8)基于采样权重p1对分箱后的所述多数样本N进行欠采样, 样本量和所述少数样本P一 致, 第1分箱的样本量 为: 9)在新的欠采样 样本集上训练基分类 器fi; 10)返回上述 步骤3)继续 新的迭代, 直到步骤3)中完成了n轮迭代; 11)在n轮迭代完成后, 将所有基分类 器整合为集成分类 器。 11.根据权利要求6 ‑9中任一项所述的基于类别不平衡机器学习框架的债券违约预测 方法, 其特 征在于, 所述选择最优 模型具体包括: 将每个超参数设定好候选值, 组合成超参数矩阵, 使用GridSearch在所述划分的训练权 利 要 求 书 2/6 页 3 CN 114676932 A 3

.PDF文档 专利 基于类别不平衡机器学习框架的债券违约预测方法和装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于类别不平衡机器学习框架的债券违约预测方法和装置 第 1 页 专利 基于类别不平衡机器学习框架的债券违约预测方法和装置 第 2 页 专利 基于类别不平衡机器学习框架的债券违约预测方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:02:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。