全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210467980.0 (22)申请日 2022.04.29 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 王立  (74)专利代理 机构 北京国昊天诚知识产权代理 有限公司 1 1315 专利代理师 朱文杰 (51)Int.Cl. G06Q 10/06(2012.01) G06K 9/62(2022.01) G06Q 40/02(2012.01) (54)发明名称 数据处理方法、 装置、 系统及设备 (57)摘要 本说明书实施例提供了一种数据处理方法、 装置、 系统及设备, 其中, 该方法包括: 基于第一 样本数据的特征信息, 确定伪样本数据; 基于所 述伪样本数据和由所述伪样本数据的数据量确 定的第二样本数据对预设第一风险识别模型进 行训练, 得到训练后的第一风险识别模型, 并基 于第三样本数据确定所述训练后的第一风险识 别模型的风险识别准确率; 若基于所述训练后的 第一风险识别模 型的风险识别准确率, 确定所述 伪样本数据满足预设风险识别需求, 则将所述伪 样本数据发送给目标设备, 所述伪样本数据用于 触发所述目标设备基于所述伪样本数据对第二 风险识别模 型进行训练, 并基于训练得到的第二 风险识别模型对用户进行风险识别处 理。 权利要求书4页 说明书19页 附图6页 CN 114707899 A 2022.07.05 CN 114707899 A 1.一种数据处 理方法, 包括: 基于第一样本数据的特征信息, 确定伪样本数据, 其中, 对所述伪样本数据进行还原处 理得到的数据与所述第一样本数据不同; 基于所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据对预设第一 风险识别模型进行训练, 得到训练后的第一风险识别模型, 并基于第三样本数据确定所述 训练后的第一 风险识别模型的风险识别准确率; 若基于所述训练后的第 一风险识别模型的风险识别准确率, 确定所述伪样本数据满足 预设风险识别需求, 则将所述伪样本数据发送给目标设备, 所述伪样本数据用于触发所述 目标设备基于所述伪样本数据对第二风险识别模型进 行训练, 并基于训练得到的第二风险 识别模型对用户进行风险识别处 理。 2.根据权利要求1所述的方法, 所述基于所述第 一样本数据的特征信 息, 确定伪样本数 据, 包括: 获取所述第一样本数据的风险标签, 并基于所述 风险标签确定伪标签; 生成随机扰动数据, 并将所述随机扰动数据和所述伪标签输入所述生成器, 得到对抗 样本数据; 将所述对抗样本数据和所述第 一样本数据输入所述判别器, 以使所述判别器基于所述 第一样本数据的特征信息和所述对抗样本数据的特征信息进 行真假样本判别处理, 得到样 本真实性 概率; 在所述样本真实性概率大于预设概率阈值的情况下, 将所述对抗样本数据确定为所述 伪样本数据。 3.根据权利要求1所述的方法, 所述基于所述第 一样本数据的特征信 息, 确定伪样本数 据, 包括: 将所述第一样本数据输入编码器, 以使所述编码器对所述第 一样本数据的特征信 息进 行表征学习, 得到所述第一样本数据的特 征向量; 对所述第一样本数据的特 征向量进行样本增强处 理, 得到处 理后的特 征向量; 将所述处理后的特征向量输入解码器进行重构处理, 得到重构的第一样本数据, 将所 述重构的第一样本数据作为所述伪样本数据。 4.根据权利要求3所述的方法, 所述对所述第一样本数据的特征向量进行样本增强处 理, 得到处 理后的特 征向量, 包括: 生成随机扰动数据, 并基于所述随机扰动数据和所述第一样本数据的特征向量, 生成 所述处理后的特 征向量。 5.根据权利要求3所述的方法, 所述第 一样本数据包括多个, 所述对所述第 一样本数据 的特征向量进行样本增强处 理, 得到处 理后的特 征向量, 包括: 基于所述第 一样本数据的特征向量的预设权重, 对所述第 一样本数据的特征向量进行 加权平均处 理, 得到所述处 理后的特 征向量。 6.一种数据处 理方法, 包括: 接收服务端发送的伪样本数据, 所述伪样本数据为所述服务端在基于训练后的第 一风 险识别模型 的风险识别准确 率, 确定所述伪样本数据满足预设风险识别需求的情况下, 发 送的基于第一样本数据的特征信息确定的样本数据, 所述训练后的第一风险识别模型基于权 利 要 求 书 1/4 页 2 CN 114707899 A 2所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据训练得到, 其中, 对所 述伪样本数据进行还原处 理得到的数据与所述第一样本数据不同; 基于所述伪样本数据, 对预设第二风险识别模型进行训练, 得到预先训练的第二风险 识别模型, 以基于所述预 先训练的第二 风险识别模型对用户进行风险识别处 理。 7.根据权利要求6所述的方法, 所述方法还 包括: 在检测到目标用户触发执 行目标业 务的情况 下, 获取所述目标用户的特 征数据; 将所述目标用户的特征数据输入所述预先训练的第 二风险识别模型, 得到所述目标用 户的目标风险识别结果; 基于所述目标风险识别结果, 确定触发执 行所述目标业 务是否存在风险。 8.一种数据处 理系统, 包括 服务端和目标设备, 其中: 所述服务端, 用于基于第一样本数据的特征信息, 确定伪样本数据, 其中, 对所述伪样 本数据进 行还原处理得到的数据与所述第一样本数据不同; 基于所述伪样本数据和由所述 伪样本数据的数据量确定的第二样本数据对预设第一风险识别模型进 行训练, 得到训练后 的第一风险识别模型, 并基于第三样本数据确定所述训练后的第一风险识别模型的风险识 别准确率; 若基于所述训练后的第一风险识别模型 的风险识别准确 率, 确定所述伪样本数 据满足预设风险识别需求, 则将所述伪样本数据发送给 所述目标设备; 所述目标设备, 用于基于所述伪样本数据, 对预设第 二风险识别模型进行训练, 得到预 先训练的第二风险识别模型, 以基于所述预先训练的第二风险识别模型对用户进 行风险识 别处理。 9.一种数据处 理装置, 包括: 数据确定模块, 用于基于第一样本数据的特征信息, 确定伪样本数据, 其中, 对所述伪 样本数据进行还原处 理得到的数据与所述第一样本数据不同; 模型训练模块, 用于基于所述伪样本数据和由所述伪样本数据的数据量确定的第 二样 本数据对预设第一风险识别模型进行训练, 得到训练后的第一风险识别模型, 并基于第三 样本数据确定所述训练后的第一 风险识别模型的风险识别准确率; 数据发送模块, 用于若基于所述训练后的第一风险识别模型的风险识别准确率, 确定 所述伪样本数据满足预设风险识别需求, 则将所述伪样本数据发送给目标设备, 所述伪样 本数据用于触发所述目标设备基于所述伪样本数据对第二风险识别模型进 行训练, 并基于 训练得到的第二 风险识别模型对用户进行风险识别处 理。 10.一种数据处 理装置, 包括: 数据接收模块, 用于接收服务端发送的伪样本数据, 所述伪样本数据为所述服务端在 基于训练后的第一风险识别模型的风险识别准确率, 确定所述伪样本数据满足预设风险识 别需求的情况下, 发送的基于第一样本数据的特征信息确定的样本数据, 所述训练后的第 一风险识别模型基于所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据 训练得到, 其中, 对所述伪样本数据进行还原处 理得到的数据与所述第一样本数据不同; 模型训练模块, 用于基于所述伪样本数据, 对预设第 二风险识别模型进行训练, 得到预 先训练的第二风险识别模型, 以基于所述预先训练的第二风险识别模型对用户进 行风险识 别处理。 11.一种数据处 理设备, 所述数据处 理设备包括:权 利 要 求 书 2/4 页 3 CN 114707899 A 3

.PDF文档 专利 数据处理方法、装置、系统及设备

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置、系统及设备 第 1 页 专利 数据处理方法、装置、系统及设备 第 2 页 专利 数据处理方法、装置、系统及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:03:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。