(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210334436.9
(22)申请日 2022.03.30
(71)申请人 中国建设银行股份有限公司
地址 100033 北京市西城区金融大街25号
(72)发明人 沈丽忠 陈晗 李婉华 谢立东
(74)专利代理 机构 北京润平知识产权代理有限
公司 11283
专利代理师 陈姝婧
(51)Int.Cl.
G06F 21/62(2013.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
用于确定模型训练数据 的方法、 装置、 存储
介质及处 理器
(57)摘要
本申请实施例提供一种用 于确定模型训练
数据的方法。 方法包括: 将未进行脱敏处理的样
本数据输入至神经网络模型, 以对神经网络模型
进行训练得到第一模型; 通过多种脱敏方法对样
本数据进行脱敏处理, 以得到与每种脱敏方法对
应的脱敏数据; 分别将与每种脱敏方法对应的脱
敏数据输入至神经网络模型, 以对神经网络模型
进行训练得到多个第二模型; 确定第一模型和每
个第二模型的模 型参数; 分别将第一模 型的模型
参数与每个第二模型的模型参数进行对比, 以确
定第一模型与每个第二模型之间的模 型差异值;
将模型差异值最小的第二模型确定为目标模型;
将目标模型对应的脱敏方法确定为目标脱敏方
法, 以用目标脱敏方法对样本数据进行脱敏处
理, 降低模型训练差异。
权利要求书3页 说明书12页 附图5页
CN 114912139 A
2022.08.16
CN 114912139 A
1.一种用于确定模型训练数据的方法, 其特 征在于, 所述方法包括:
将未进行脱敏处理的样本数据输入至神经网络模型, 以对神经网络模型进行训练, 得
到第一模型;
通过多种 脱敏方法对所述样本数据进行脱敏处理, 以得到与每种 脱敏方法对应的脱敏
数据;
分别将与每种 脱敏方法对应的脱敏数据输入至神经网络模型, 以对神经网络模型进行
训练, 得到多个第二模型;
确定所述第一模型和每 个所述第二模型的模型参数;
分别将所述第 一模型的模型参数与每个第 二模型的模型参数进行对比, 以确定所述第
一模型与每 个第二模型之间的模型差异值;
将所述模型差异值 最小的第二模型确定为目标模型;
将所述目标模型对应的脱敏方法确定为目标脱敏方法, 以使用所述目标脱敏方法对样
本数据进行脱敏处 理得到针对神经网络模型训练的数据。
2.根据权利要求1所述的用于确定模型训练数据的方法, 其特征在于, 所述模型差异值
包括模型之间的AUC值, 根据公式(1)确定每 个第二模型与所述第一模型的模型差异值Y:
其中, Yi表示为使用第i种脱敏方法脱敏得到的样本 数据训练出来的第二模型与所述第
一模型之间的模型差异值, Vs为所述第一模型的AUC值, Vei为使用第i种脱敏方法脱敏得到
的样本数据训练出来的第二模型的AUC值,
为使用第i种脱敏方法脱敏得到 的
样本数据训练出来的第二模型与所述第一模型之间的过拟合 程度值。
3.根据权利要求1所述的用于确定模型训练数据的方法, 其特征在于, 所述将未进行脱
敏处理的样本数据输入至神经网络模型, 以对神经网络模型进 行训练, 得到第一模型包括:
提交机器学习流水线至第一运行环境, 在所述第一运行环境下将未进 行脱敏处理的样本数
据输入至 机器学习流水线的神经网络模型, 以对神经网络模型进行训练, 得到第一模型;
所述分别将与每种 脱敏方法对应的脱敏数据输入至神经网络模型, 以对神经网络模型
进行训练, 得到多个第二模型包括: 提交机器学习流水线至第二运行环境, 在所述第二运行
环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型, 以
对神经网络模型进行训练, 得到多个第二模型。
4.根据权利要求3所述的用于确定模型训练数据的方法, 其特征在于, 所述方法还包
括:
获取所述目标模型的目标训练参数, 所述目标训练参数包括所述目标模型所在的第 二
运行环境的环境运行参数、 所述目标模型的模 型参数以及训练所述目标模 型的脱敏数据所
采用的脱敏 方法;
将所述目标训练参数确定为后续的模型训练的训练参数。
5.根据权利要求3所述的用于确定模型训练数据的方法, 其特征在于, 所述第 一运行环
境为可信环境, 所述可信环境下的数据包括敏感数据, 所述第二运行环境为调试环境, 所述
调试环境下的数据均为脱敏 数据。权 利 要 求 书 1/3 页
2
CN 114912139 A
26.根据权利要求1所述的用于确定模型训练数据的方法, 其特征在于, 在通过脱敏后的
样本数据对神经网络模型进行训练的模型参数, 与通过未脱敏的样本数据对神经网络模型
进行训练的模型参数一 致。
7.根据权利要求1所述的用于确定模型训练数据的方法, 其特征在于, 所述模型差异值
包括模型之间的提升度和/或ks统计量。
8.一种处理器, 其特征在于, 被配置成执行根据权利要求1至7中任意一项所述的用于
确定模型训练数据的方法。
9.一种用于确定模型训练数据的装置, 其特 征在于, 所述装置包括:
第一训练模块, 被配置成将未进行脱敏处理的样本数据输入至神经网络模型, 以对神
经网络模型进行训练, 得到第一模型;
数据脱敏模块, 被配置成通过多种脱敏方法对所述样本数据进行脱敏处理, 以得到与
每种脱敏 方法对应的脱敏 数据;
第二训练模块, 被配置成分别将与每种脱敏方法对应的脱敏数据输入至神经网络模
型, 以对神经网络模型进行训练, 得到多个第二模型;
模型比对模块, 被配置成确定所述第一模型和每个所述第二模型的模型参数; 分别将
所述第一模型的模型参数与每个第二模型的模型参数进行对比, 以确定所述第一模型与每
个第二模型之间的模型差异值;
模型选取模块, 被配置成将所述模型差异值最小的第二模型确定为目标模型; 将所述
目标模型对应的脱敏方法确定为目标脱敏方法, 以使用所述目标脱敏方法对样本数据进 行
脱敏处理得到针对神经网络模型训练的数据。
10.根据权利要求9所述的用于确定模型训练数据的装置, 其特征在于, 所述模型差异
值包括模 型之间的AUC值, 所述模 型比对模块还被配置成根据公 式(1)确定每个第二模 型与
所述第一模型的模型差异值Y:
其中, Yi表示为使用第i种脱敏方法脱敏得到的样本 数据训练出来的第二模型与所述第
一模型之间的模型差异值, Vs为所述第一模型的AUC值, Vei为使用第i种脱敏方法脱敏得到
的样本数据训练出来的第二模型的AUC值,
为使用第i种脱敏方法脱敏得到 的
样本数据训练出来的第二模型与所述第一模型之间的过拟合 程度值。
11.根据权利要求9所述的用于确定模型训练数据的装置, 其特征在于, 所述第一训练
模块还被配置成: 提交机器学习流水线至第一运行环境, 在所述第一运行环境下将未进行
脱敏处理的样本数据输入至机器学习流水线的神经网络模型, 以对神经网络模型进行训
练, 得到第一模型;
所述第二训练模块还被配置成: 提交机器学习流水线至第二运行环境, 在所述第二运
行环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型,
以对神经网络模型进行训练, 得到多个第二模型。
12.根据权利要求11所述的用于确定模型训练数据的装置, 其特征在于, 所述模型选取
模块还被 配置成:权 利 要 求 书 2/3 页
3
CN 114912139 A
3
专利 用于确定模型训练数据的方法、装置、存储介质及处理器
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:39:50上传分享