专利基于强化学习的风险预测的方法、装置、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111535520.9 (22)申请日 2021.12.15 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人肖京　郭骁　王磊　王媛　刘云风　谭韬　陈又新　 (74)专利代理机构广州三环专利商标代理有限公司 44202 代理人陈燕 (51)Int.Cl. G06Q 40/04(2012.01) G06Q 10/04(2012.01) G06N 3/04(2006.01)G06K 9/62(2022.01) (54)发明名称基于强化学习的风险预测的方法、装置、设备及存储介质 (57)摘要本申请涉及人工智能领域，公开了一种基于强化学习的风险预测的方法、装置、设备及存储介质。其中方法包括：接收目标标的物的风险预测请求，该风险预测请求包括预测日期；获取该风险预测请求的接收日期和接收日期的前N天目标标的物的目标历史数据；对目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；将目标状态特征输入至第一风险预测模型，得到目标标的物在预测日期的风险值，其中，第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一A ctor模型进行优化得到的模型。实施本申请实施例，可以提高风险预测的准确率，有利于进行风险决策。权利要求书2页说明书20页附图3页 CN 114240656 A 2022.03.25 CN 114240656 A 1.一种基于强化学习的风险预测的方法，其特征在于，包括：接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述 N为大于或等于1的正整数；对所述目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值，其中，所述第一风险预测模型是基于第一训练集、第一Cr itic模型或第二Cr itic 模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。 2.根据权利要求1所述的方法，其特征在于，在所述将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值之前，所述方法还包括：从所述预设数据库提取所述第二训练集；基于预设专家规则对所述第二训练集进行计算，得到不同状态下对应的第一动作集合；基于所述第一动作集合进行机器学习，得到所述第一Actor模型。 3.根据权利要求2所述的方法，其特征在于，在所述从所述预设数据库提取所述第二训练集之后，所述方法还包括：对所述第一训练集进行特征提取，得到第一状态特征和第二状态特征；对所述第一状态特征和所述第二状态特征进行拼接，得到第三状态特征；基于所述第三状态特征进行机器学习，得到基模型；将所述第三状态特征输入至所述基模型，得到基模型训练结果；根据所述基模型训练结果获取所述基模型的排序结果；根据所述排序结果确定所述基模型的加权权重；根据所述加权权重对所述基模型进行模型融合，得到所述第一Critic模型。 4.根据权利要求2所述的方法，其特征在于，在所述从所述预设数据库提取所述第二训练集之后，所述方法还包括：构建所述第二Critic模型的价值网络，其中，所述价值网络的网络结构与所述第一 Actor模型的网络结构相同；将所述第一Actor模型的输出层之外的权重值复制给所述价值网络；基于所述第一训练集，对所述价值网络进行训练，以更新所述价值网络的权重值；将训练完成得到的所述价值网络作为所述第二Critic模型。 5.根据权利要求2所述的方法，其特征在于，在所述基于所述第一动作集合进行机器学习，得到所述第一Actor模型之后，所述方法还包括：从所述预设数据库提取所述第一训练集；基于预设专家规则对所述第一训练集进行计算，得到不同状态下对应的第二动作集合；基于所述第二动作集合对所述第一Actor模型进行优化，得到所述第一风险预测模型；权　利　要　求　书 1/2 页 2 CN 114240656 A 2或者基于所述第一Critic模型或所述第二Critic模型对所述第一Actor模型进行优化，得到所述第一风险预测模型。 6.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于所述预设数据库获取风险函数；基于所述第一Critic模型和所述第二Critic模型，对所述风险函数进行优化，得到优化风险函数；基于所述优化风险函数对所述第一Actor模型进行优化，得到所述第一风险预测模型。 7.根据权利要求1 ‑6中任一项所述的方法，其特征在于，在所述将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值之后，所述方法还包括：从预设数据库中提取验证数据集；基于所述验证数据集对第一风险预测模型进行验证，得到第二风险预测模型；基于所述第一训练集和所述第二训练集对所述第二风险预测模型进行训练，得到第三风险预测模型；将所述目标状态特征输入至所述第三风险预测模型，得到所述目标标的物在所述预测日期的风险值。 8.一种基于强化学习的风险预测的装置，其特征在于，包括：接收单元，用于接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；处理单元，用于获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述 N为大于或等于1的正整数；对所述目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值，其中，所述第一风险预测模型是基于第一训练集、第一Cr itic模型或第二Cr itic 模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。 9.一种计算机设备，其特征在于，包括处理器、存储器和通信接口，其中，所述存储器存储有计算机程序，所述计算机程序被配置由所述处理器执行，所述计算机程序包括用于执行权利要求1 ‑7中任一项方法中的步骤的指令。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序使得计算机执行以实现权利要求1 ‑7中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114240656 A 3

专利 基于强化学习的风险预测的方法、装置、设备及存储介质

专利基于强化学习的风险预测的方法、装置、设备及存储介质