全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111535520.9 (22)申请日 2021.12.15 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 肖京 郭骁 王磊 王媛 刘云风  谭韬 陈又新  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 代理人 陈燕 (51)Int.Cl. G06Q 40/04(2012.01) G06Q 10/04(2012.01) G06N 3/04(2006.01)G06K 9/62(2022.01) (54)发明名称 基于强化学习的风险预测的方法、 装置、 设 备及存储介质 (57)摘要 本申请涉及人工智能领域, 公开了一种基于 强化学习的风险预测的方法、 装置、 设备及存储 介质。 其中方法包括: 接收目标标的物的风险预 测请求, 该风险预测请求包括预测日期; 获取该 风险预测请求的接收日期和接收日期的前N天目 标标的物的目标历史数据; 对目标历史数据进行 特征提取, 得到多个预设特征维度中每一预设特 征维度对应的目标状态特征; 将目标状态特征输 入至第一风险预测模型, 得到目标标的物在预测 日期的风险值, 其中, 第一风险预测模型是基于 第一训练集、 第一Critic模型或第二Critic模 型, 对第一A ctor模型进行优化得到的模型。 实施 本申请实施例, 可 以提高风险预测的准确率, 有 利于进行风险决策。 权利要求书2页 说明书20页 附图3页 CN 114240656 A 2022.03.25 CN 114240656 A 1.一种基于强化学习的风险预测的方法, 其特 征在于, 包括: 接收目标 标的物的风险预测请求, 所述 风险预测请求包括预测日期; 获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历 史数据, 所述 N为大于或等于1的正整数; 对所述目标历史数据进行特征提取, 得到多个预设特征维度中每一预设特征维度对应 的目标状态特 征; 将所述目标状态特征输入至第 一风险预测模型, 得到所述目标标的物在所述预测日期 的风险值, 其中, 所述第一风险预测模 型是基于第一训练集、 第一Cr itic模型或第二Cr itic 模型, 对第一Actor模型进行优化得到的模型, 所述第一Actor模型是基于第二训练集进行 训练得到的, 所述第一训练集和所述第二训练集是从预设数据库中提取 的历史数据, 所述 预设数据库包括所述目标历史数据。 2.根据权利要求1所述的方法, 其特征在于, 在所述将所述目标状态特征输入至第 一风 险预测模型, 得到所述目标 标的物在所述预测日期的风险值之前, 所述方法还 包括: 从所述预设数据库提取 所述第二训练集; 基于预设专家规则对所述第二训练集进行计算, 得到不同状态下对应的第一动作集 合; 基于所述第一动作集 合进行机器学习, 得到所述第一Actor模型。 3.根据权利要求2所述的方法, 其特征在于, 在所述从所述预设数据库提取所述第 二训 练集之后, 所述方法还 包括: 对所述第一训练集进行 特征提取, 得到第一状态特 征和第二状态特 征; 对所述第一状态特 征和所述第二状态特 征进行拼接, 得到第三状态特 征; 基于所述第三状态特 征进行机器学习, 得到基模型; 将所述第三状态特 征输入至所述基模型, 得到基模型训练结果; 根据所述基模型训练结果获取 所述基模型的排序结果; 根据所述 排序结果确定所述基模型的加权 权重; 根据所述加权 权重对所述基模型进行模型融合, 得到所述第一Critic模型。 4.根据权利要求2所述的方法, 其特征在于, 在所述从所述预设数据库提取所述第 二训 练集之后, 所述方法还 包括: 构建所述第二Critic模型的价值网络, 其中, 所述价值网络的网络结构与所述第一 Actor模型的网络结构相同; 将所述第一Actor模型的输出层之外的权 重值复制给 所述价值网络; 基于所述第一训练集, 对所述 价值网络进行训练, 以更新所述 价值网络的权 重值; 将训练完成得到的所述 价值网络作为所述第二Critic模型。 5.根据权利要求2所述的方法, 其特征在于, 在所述基于所述第 一动作集合进行机器学 习, 得到所述第一Actor模型之后, 所述方法还 包括: 从所述预设数据库提取 所述第一训练集; 基于预设专家规则对所述第一训练集进行计算, 得到不同状态下对应的第二动作集 合; 基于所述第二动作集合对所述第一Actor模型进行优化, 得到所述第一风险预测模型;权 利 要 求 书 1/2 页 2 CN 114240656 A 2或者 基于所述第一Critic模型或所述第二Critic模型对所述第一Actor模型进行优化, 得 到所述第一 风险预测模型。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 基于所述预设数据库获取风险函数; 基于所述第一Critic模型和所述第二Critic模型, 对所述风险函数进行优化, 得到优 化风险函数; 基于所述优化 风险函数对所述第一Actor模型进行优化, 得到所述第一 风险预测模型。 7.根据权利要求1 ‑6中任一项所述的方法, 其特征在于, 在所述将所述目标状态特征输 入至第一风险预测模型, 得到所述 目标标的物在所述预测日期的风险值之后, 所述方法还 包括: 从预设数据库中提取验证数据集; 基于所述验证数据集对第一 风险预测模型进行验证, 得到第二 风险预测模型; 基于所述第 一训练集和所述第 二训练集对所述第 二风险预测模型进行训练, 得到第 三 风险预测模型; 将所述目标状态特征输入至所述第 三风险预测模型, 得到所述目标标的物在所述预测 日期的风险值。 8.一种基于强化学习的风险预测的装置, 其特 征在于, 包括: 接收单元, 用于接收目标 标的物的风险预测请求, 所述 风险预测请求包括预测日期; 处理单元, 用于获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标 标的物的目标历史数据, 所述 N为大于或等于1的正整数; 对所述目标历史数据进行特征提取, 得到多个预设特征维度中每一预设特征维度对应 的目标状态特 征; 将所述目标状态特征输入至第 一风险预测模型, 得到所述目标标的物在所述预测日期 的风险值, 其中, 所述第一风险预测模 型是基于第一训练集、 第一Cr itic模型或第二Cr itic 模型, 对第一Actor模型进行优化得到的模型, 所述第一Actor模型是基于第二训练集进行 训练得到的, 所述第一训练集和所述第二训练集是从预设数据库中提取 的历史数据, 所述 预设数据库包括所述目标历史数据。 9.一种计算机设备, 其特征在于, 包括处理器、 存储器和通信 接口, 其中, 所述存储器存 储有计算机程序, 所述计算机程序被配置由所述处理器执行, 所述计算机程序包括用于执 行权利要求1 ‑7中任一项方法中的步骤的指令 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程 序, 所述计算机程序使得计算机执 行以实现权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114240656 A 3

.PDF文档 专利 基于强化学习的风险预测的方法、装置、设备及存储介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的风险预测的方法、装置、设备及存储介质 第 1 页 专利 基于强化学习的风险预测的方法、装置、设备及存储介质 第 2 页 专利 基于强化学习的风险预测的方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:43:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。