全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111275770.3 (22)申请日 2021.10.2 9 (71)申请人 中国平安财产保险股份有限公司 地址 518000 广东省深圳市福田区益田路 5033号平安金融中心12、 13、 38、 39、 40 层 (72)发明人 赵亚龙  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 代理人 熊永强 (51)Int.Cl. G06F 40/183(2020.01) G06N 3/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于随机森林模型的报表生成方法及 相关设备 (57)摘要 本申请实施例应用于人工智能领域, 公开了 一种基于随机森林模型的报表生成方法及相关 设备, 包括: 接收携带第一字段集合的报表生成 指令, 将第一字段集合输入至目标随机森林模型 中; 在确定第一字段集合所包括的字段能生成报 表的情况下, 确定目标随机森 林模型中包括第一 字段集合的路径集合; 接收指示路径 集合中第一 路径的选 择指令; 确定在第一路径包括的各个节 点对应的字段为第二字段集合; 并根据第二字段 集合中各个字段以及获取到的各个字段对应的 数据, 生成第一报表。 采用本申请实施例, 可以在 面对多种不同业务以及海量数据快速生成报表, 提高了生 成报表的准确性和效率。 本申请涉及区 块链技术, 上述报表/数据可存 储于区块链中。 权利要求书3页 说明书18页 附图4页 CN 113901770 A 2022.01.07 CN 113901770 A 1.一种基于随机森林模型的报表生成方法, 其特 征在于, 包括: 接收报表生成指令, 所述报表生成指令携带第一字段集合, 将所述第一字段集合输入 至目标随机森林模型中; 在通过所述目标随机森林模型确定所述第一字段集合所包括的字段能生成报表的情 况下, 确定所述目标随机森林模型中包括所述第一字段集 合的路径集 合; 接收选择指令, 所述选择指令携带路径标识, 所述路径标识用于指示所述路径集合中 的第一路径, 所述第一路径为所述 目标随机森林模型中决策树模型 的路径, 所述第一路径 包括所述决策树模型的根节点至目标叶子节点; 确定在所述第一路径中的各个节点对应的字段为第二字段集 合; 获取所述第 二字段集合中各个字段对应的数据, 并根据 所述第二字段集合中各个字段 以及各个字段对应的数据, 生成第一报表。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述第 一字段集合中的各个字段输 入至目标随机森林模型中之前, 所述方法还 包括: 获取历史报表集 合中的字段, 并根据所述历史报表集 合中字段确定第三字段集 合; 从所述第三字段集合中随机选取N个字段, 将选取的N个字段组成训练样本, 得到第一 训练样本集, 所述 N为大于1的整数; 在确定第二报表包括第一训练样本的N个字段的情况下, 将所述第一训练样本确定为 正样本, 在确定所述第二报表不包括所述第一训练样本的N个字段的情况下, 将所述第一训 练样本确定为负 样本; 其中, 所述第二报表为所述历史报表集合中的任一报表, 所述第一训练样本为所述第 一训练样本集中的任一训练样本 。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述第 一字段集合中的各个字段输 入至目标随机森林模型之前, 所述方法还 包括: 确定所述第 一训练样本集中包括第 一字段的第 一正样本个数和第 一负样本个数, 并确 定所述第一训练样本集中包括所述第一字段的第一总训练样本个数, 确定所述第一训练样 本集中不包括所述第一字段的第二正样本个数和 第二负样本个数, 以及确定所述第一训练 样本集中不包括所述第一字段的第二总训练样本个数, 所述第一字段为所述第三字段集合 中的任一字段; 其中, 所述第一总训练样本个数为所述第一正样本个数与所述第一负样本个数之和, 所述第二总训练样本个数为所述第二 正样本个数与所述第二负 样本个数之和; 确定所述第 一正样本个数占所述第 一总训练样本个数的第 一比例, 确定所述第 一负样 本个数占所述第一总训练样本个数的第二比例, 确定所述第二正样本个数占所述第二总训 练样本个数的第三比例, 确定所述第二负样本个数占所述第二总训练样本个数的第四比 例; 根据所述第一比例、 所述第 二比例、 所述第三比例和所述第四比例, 确定所述第 一字段 的第一基尼系数, 并根据所述第一训练样本集合和所述第三字段集合中各个第一字段的第 一基尼系数, 构建第一决策树模型。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述第 三字段集合中各个第 一字 段的第一基尼系数, 构建第一决策树模型之后, 所述方法还 包括:权 利 要 求 书 1/3 页 2 CN 113901770 A 2从所述第三字段集合中随机选取M个字段, 并将选取的M个字段组成训练样本, 得到第 二训练样本集, 所述M为大于1的整数; 确定所述第 三字段集合中各个字段的第 二基尼系数, 并根据所述第 二训练样本集和所 述第三字段集 合中各个字段的第二基尼系数, 构建第二决策树模型; 将所述第一决策树模型和所述第二决策树模型组合 起来, 得到目标随机森林模型。 5.根据权利要求4所述的方法, 其特征在于, 所述将所述第 一字段集合输入至目标随机 森林模型中之前, 所述方法还 包括: 确定所述目标随机森林模型中各个决策树模型的根节点至各个叶子节点的路径, 得到 多个路径; 确定所述多个路径中第二路径的各个节点的字段, 得到第 四字段集合, 并从所述历史 报表集合中获取包括所述第四字段集合所有字段的第三报表, 所述第二路径为所述多个路 径中的任一路径; 确定所述第 三报表的数据处理方法, 所述数据处理方法包括所述第四字段集合中各个 字段对应的数据之 间的计算方法以及报表配置模板, 并将所述数据处理方法与所述第二路 径对应存 储。 6.根据权利要求5所述的方法, 其特征在于, 所述报表配置模板中包括图表标识, 所述 根据所述第二字段集 合中各个字段以及各个字段对应的数据, 生成第一报表, 包括: 获取存储的所述第 一路径对应的参考数据处理方法, 根据 所述参考处理方法对所述第 二字段集 合中各个字段对应的数据进行计算, 得到计算结果; 获取所述参考数据处理方法包括的图表标识对应的参考图表配置方法, 并根据 所述参 考图表配置方法、 所述第二字段集合中各个字段、 所述第二字段集合中各个字段对应的数 据和所述计算结果, 生成目标图表; 将所述第二字段集合中各个字段对应的数据、 所述计算结果以及所述目标图表填入所 述参考数据处 理方法的报表配置模板中, 得到所述第一报表。 7.根据权利要求6所述的方法, 其特征在于, 所述参考图表配置方法包括预设的字段 项、 参考图表的样式, 所述计算结果包括数据结果和所述数据结果对应的新增字段; 所述根据参考图表配置方法、 所述第二字段集合中各个字段、 所述第二字段集合中各 个字段对应的数据和所述计算结果, 生成目标图表, 包括: 按照预设的字段项确定用于生成所述目标图表的数据, 并根据 所述预设的字段项和所 述第二字段集合中各个字段, 确定横纵轴信息以及图标标题信息, 所述预设的字段项用于 指示所述第二字段集 合和所述 新增字段中的多个字段; 根据所述参考图表的样式、 所述预设的字段项对应的数据, 生成初始图表, 并根据 所述 初始图表、 所述横纵轴信息和所述标题信息组成所述目标图表。 8.一种基于随机森林模型的报表生成装置, 其特 征在于, 包括: 接收单元, 用于接收报表生成指令, 所述报表生成指令携带第一字段集合, 将所述第一 字段集合输入至目标随机森林模型中; 确定单元, 用于在通过所述目标随机森林模型确定所述第 一字段集合所包括的字段能 生成报表的情况 下, 确定所述目标随机森林模型中包括所述第一字段集 合的路径集 合; 所述接收单元, 还用于接收选择指令, 所述选择指令携带路径标识, 所述路径标识用于权 利 要 求 书 2/3 页 3 CN 113901770 A 3

.PDF文档 专利 一种基于随机森林模型的报表生成方法及相关设备

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于随机森林模型的报表生成方法及相关设备 第 1 页 专利 一种基于随机森林模型的报表生成方法及相关设备 第 2 页 专利 一种基于随机森林模型的报表生成方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:00:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。