专利数据处理方法、装置、系统及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210467980.0 (22)申请日 2022.04.29 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人王立　 (74)专利代理机构北京国昊天诚知识产权代理有限公司 1 1315 专利代理师朱文杰 (51)Int.Cl. G06Q 10/06(2012.01) G06K 9/62(2022.01) G06Q 40/02(2012.01) (54)发明名称数据处理方法、装置、系统及设备 (57)摘要本说明书实施例提供了一种数据处理方法、装置、系统及设备，其中，该方法包括：基于第一样本数据的特征信息，确定伪样本数据；基于所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据对预设第一风险识别模型进行训练，得到训练后的第一风险识别模型，并基于第三样本数据确定所述训练后的第一风险识别模型的风险识别准确率；若基于所述训练后的第一风险识别模型的风险识别准确率，确定所述伪样本数据满足预设风险识别需求，则将所述伪样本数据发送给目标设备，所述伪样本数据用于触发所述目标设备基于所述伪样本数据对第二风险识别模型进行训练，并基于训练得到的第二风险识别模型对用户进行风险识别处理。权利要求书4页说明书19页附图6页 CN 114707899 A 2022.07.05 CN 114707899 A 1.一种数据处理方法，包括：基于第一样本数据的特征信息，确定伪样本数据，其中，对所述伪样本数据进行还原处理得到的数据与所述第一样本数据不同；基于所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据对预设第一风险识别模型进行训练，得到训练后的第一风险识别模型，并基于第三样本数据确定所述训练后的第一风险识别模型的风险识别准确率；若基于所述训练后的第一风险识别模型的风险识别准确率，确定所述伪样本数据满足预设风险识别需求，则将所述伪样本数据发送给目标设备，所述伪样本数据用于触发所述目标设备基于所述伪样本数据对第二风险识别模型进行训练，并基于训练得到的第二风险识别模型对用户进行风险识别处理。 2.根据权利要求1所述的方法，所述基于所述第一样本数据的特征信息，确定伪样本数据，包括：获取所述第一样本数据的风险标签，并基于所述风险标签确定伪标签；生成随机扰动数据，并将所述随机扰动数据和所述伪标签输入所述生成器，得到对抗样本数据；将所述对抗样本数据和所述第一样本数据输入所述判别器，以使所述判别器基于所述第一样本数据的特征信息和所述对抗样本数据的特征信息进行真假样本判别处理，得到样本真实性概率；在所述样本真实性概率大于预设概率阈值的情况下，将所述对抗样本数据确定为所述伪样本数据。 3.根据权利要求1所述的方法，所述基于所述第一样本数据的特征信息，确定伪样本数据，包括：将所述第一样本数据输入编码器，以使所述编码器对所述第一样本数据的特征信息进行表征学习，得到所述第一样本数据的特征向量；对所述第一样本数据的特征向量进行样本增强处理，得到处理后的特征向量；将所述处理后的特征向量输入解码器进行重构处理，得到重构的第一样本数据，将所述重构的第一样本数据作为所述伪样本数据。 4.根据权利要求3所述的方法，所述对所述第一样本数据的特征向量进行样本增强处理，得到处理后的特征向量，包括：生成随机扰动数据，并基于所述随机扰动数据和所述第一样本数据的特征向量，生成所述处理后的特征向量。 5.根据权利要求3所述的方法，所述第一样本数据包括多个，所述对所述第一样本数据的特征向量进行样本增强处理，得到处理后的特征向量，包括：基于所述第一样本数据的特征向量的预设权重，对所述第一样本数据的特征向量进行加权平均处理，得到所述处理后的特征向量。 6.一种数据处理方法，包括：接收服务端发送的伪样本数据，所述伪样本数据为所述服务端在基于训练后的第一风险识别模型的风险识别准确率，确定所述伪样本数据满足预设风险识别需求的情况下，发送的基于第一样本数据的特征信息确定的样本数据，所述训练后的第一风险识别模型基于权　利　要　求　书 1/4 页 2 CN 114707899 A 2所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据训练得到，其中，对所述伪样本数据进行还原处理得到的数据与所述第一样本数据不同；基于所述伪样本数据，对预设第二风险识别模型进行训练，得到预先训练的第二风险识别模型，以基于所述预先训练的第二风险识别模型对用户进行风险识别处理。 7.根据权利要求6所述的方法，所述方法还包括：在检测到目标用户触发执行目标业务的情况下，获取所述目标用户的特征数据；将所述目标用户的特征数据输入所述预先训练的第二风险识别模型，得到所述目标用户的目标风险识别结果；基于所述目标风险识别结果，确定触发执行所述目标业务是否存在风险。 8.一种数据处理系统，包括服务端和目标设备，其中：所述服务端，用于基于第一样本数据的特征信息，确定伪样本数据，其中，对所述伪样本数据进行还原处理得到的数据与所述第一样本数据不同；基于所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据对预设第一风险识别模型进行训练，得到训练后的第一风险识别模型，并基于第三样本数据确定所述训练后的第一风险识别模型的风险识别准确率；若基于所述训练后的第一风险识别模型的风险识别准确率，确定所述伪样本数据满足预设风险识别需求，则将所述伪样本数据发送给所述目标设备；所述目标设备，用于基于所述伪样本数据，对预设第二风险识别模型进行训练，得到预先训练的第二风险识别模型，以基于所述预先训练的第二风险识别模型对用户进行风险识别处理。 9.一种数据处理装置，包括：数据确定模块，用于基于第一样本数据的特征信息，确定伪样本数据，其中，对所述伪样本数据进行还原处理得到的数据与所述第一样本数据不同；模型训练模块，用于基于所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据对预设第一风险识别模型进行训练，得到训练后的第一风险识别模型，并基于第三样本数据确定所述训练后的第一风险识别模型的风险识别准确率；数据发送模块，用于若基于所述训练后的第一风险识别模型的风险识别准确率，确定所述伪样本数据满足预设风险识别需求，则将所述伪样本数据发送给目标设备，所述伪样本数据用于触发所述目标设备基于所述伪样本数据对第二风险识别模型进行训练，并基于训练得到的第二风险识别模型对用户进行风险识别处理。 10.一种数据处理装置，包括：数据接收模块，用于接收服务端发送的伪样本数据，所述伪样本数据为所述服务端在基于训练后的第一风险识别模型的风险识别准确率，确定所述伪样本数据满足预设风险识别需求的情况下，发送的基于第一样本数据的特征信息确定的样本数据，所述训练后的第一风险识别模型基于所述伪样本数据和由所述伪样本数据的数据量确定的第二样本数据训练得到，其中，对所述伪样本数据进行还原处理得到的数据与所述第一样本数据不同；模型训练模块，用于基于所述伪样本数据，对预设第二风险识别模型进行训练，得到预先训练的第二风险识别模型，以基于所述预先训练的第二风险识别模型对用户进行风险识别处理。 11.一种数据处理设备，所述数据处理设备包括：权　利　要　求　书 2/4 页 3 CN 114707899 A 3

专利 数据处理方法、装置、系统及设备

专利数据处理方法、装置、系统及设备