专利 用于确定模型训练数据的方法、装置、存储介质及处理器

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210334436.9 (22)申请日 2022.03.30 (71)申请人中国建设银行股份有限公司地址 100033 北京市西城区金融大街25号 (72)发明人沈丽忠　陈晗　李婉华　谢立东　 (74)专利代理机构北京润平知识产权代理有限公司 11283 专利代理师陈姝婧 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称用于确定模型训练数据的方法、装置、存储介质及处理器 (57)摘要本申请实施例提供一种用于确定模型训练数据的方法。方法包括：将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练得到第一模型；通过多种脱敏方法对样本数据进行脱敏处理，以得到与每种脱敏方法对应的脱敏数据；分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练得到多个第二模型；确定第一模型和每个第二模型的模型参数；分别将第一模型的模型参数与每个第二模型的模型参数进行对比，以确定第一模型与每个第二模型之间的模型差异值；将模型差异值最小的第二模型确定为目标模型；将目标模型对应的脱敏方法确定为目标脱敏方法，以用目标脱敏方法对样本数据进行脱敏处理，降低模型训练差异。权利要求书3页说明书12页附图5页 CN 114912139 A 2022.08.16 CN 114912139 A 1.一种用于确定模型训练数据的方法，其特征在于，所述方法包括：将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练，得到第一模型；通过多种脱敏方法对所述样本数据进行脱敏处理，以得到与每种脱敏方法对应的脱敏数据；分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练，得到多个第二模型；确定所述第一模型和每个所述第二模型的模型参数；分别将所述第一模型的模型参数与每个第二模型的模型参数进行对比，以确定所述第一模型与每个第二模型之间的模型差异值；将所述模型差异值最小的第二模型确定为目标模型；将所述目标模型对应的脱敏方法确定为目标脱敏方法，以使用所述目标脱敏方法对样本数据进行脱敏处理得到针对神经网络模型训练的数据。 2.根据权利要求1所述的用于确定模型训练数据的方法，其特征在于，所述模型差异值包括模型之间的AUC值，根据公式(1)确定每个第二模型与所述第一模型的模型差异值Y：其中， Yi表示为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与所述第一模型之间的模型差异值， Vs为所述第一模型的AUC值， Vei为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型的AUC值，为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与所述第一模型之间的过拟合程度值。 3.根据权利要求1所述的用于确定模型训练数据的方法，其特征在于，所述将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练，得到第一模型包括：提交机器学习流水线至第一运行环境，在所述第一运行环境下将未进行脱敏处理的样本数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到第一模型；所述分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练，得到多个第二模型包括：提交机器学习流水线至第二运行环境，在所述第二运行环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到多个第二模型。 4.根据权利要求3所述的用于确定模型训练数据的方法，其特征在于，所述方法还包括：获取所述目标模型的目标训练参数，所述目标训练参数包括所述目标模型所在的第二运行环境的环境运行参数、所述目标模型的模型参数以及训练所述目标模型的脱敏数据所采用的脱敏方法；将所述目标训练参数确定为后续的模型训练的训练参数。 5.根据权利要求3所述的用于确定模型训练数据的方法，其特征在于，所述第一运行环境为可信环境，所述可信环境下的数据包括敏感数据，所述第二运行环境为调试环境，所述调试环境下的数据均为脱敏数据。权　利　要　求　书 1/3 页 2 CN 114912139 A 26.根据权利要求1所述的用于确定模型训练数据的方法，其特征在于，在通过脱敏后的样本数据对神经网络模型进行训练的模型参数，与通过未脱敏的样本数据对神经网络模型进行训练的模型参数一致。 7.根据权利要求1所述的用于确定模型训练数据的方法，其特征在于，所述模型差异值包括模型之间的提升度和/或ks统计量。 8.一种处理器，其特征在于，被配置成执行根据权利要求1至7中任意一项所述的用于确定模型训练数据的方法。 9.一种用于确定模型训练数据的装置，其特征在于，所述装置包括：第一训练模块，被配置成将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练，得到第一模型；数据脱敏模块，被配置成通过多种脱敏方法对所述样本数据进行脱敏处理，以得到与每种脱敏方法对应的脱敏数据；第二训练模块，被配置成分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练，得到多个第二模型；模型比对模块，被配置成确定所述第一模型和每个所述第二模型的模型参数；分别将所述第一模型的模型参数与每个第二模型的模型参数进行对比，以确定所述第一模型与每个第二模型之间的模型差异值；模型选取模块，被配置成将所述模型差异值最小的第二模型确定为目标模型；将所述目标模型对应的脱敏方法确定为目标脱敏方法，以使用所述目标脱敏方法对样本数据进行脱敏处理得到针对神经网络模型训练的数据。 10.根据权利要求9所述的用于确定模型训练数据的装置，其特征在于，所述模型差异值包括模型之间的AUC值，所述模型比对模块还被配置成根据公式(1)确定每个第二模型与所述第一模型的模型差异值Y：其中， Yi表示为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与所述第一模型之间的模型差异值， Vs为所述第一模型的AUC值， Vei为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型的AUC值，为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与所述第一模型之间的过拟合程度值。 11.根据权利要求9所述的用于确定模型训练数据的装置，其特征在于，所述第一训练模块还被配置成：提交机器学习流水线至第一运行环境，在所述第一运行环境下将未进行脱敏处理的样本数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到第一模型；所述第二训练模块还被配置成：提交机器学习流水线至第二运行环境，在所述第二运行环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到多个第二模型。 12.根据权利要求11所述的用于确定模型训练数据的装置，其特征在于，所述模型选取模块还被配置成：权　利　要　求　书 2/3 页 3 CN 114912139 A 3

专利 用于确定模型训练数据的方法、装置、存储介质及处理器

专利用于确定模型训练数据的方法、装置、存储介质及处理器