专利 一种模型隐私保护方法、装置以及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210584343.1 (22)申请日 2022.05.27 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人曹佳炯　丁菁汀　 (74)专利代理机构北京君慧知识产权代理事务所(普通合伙) 11716 专利代理师肖鹏 (51)Int.Cl. G06F 21/62(2013.01) G06V 10/82(2022.01) G06V 10/766(2022.01) G06V 10/26(2022.01) (54)发明名称一种模型隐私保护方法、装置以及设备 (57)摘要本说明书实施例公开了一种模型隐私保护方法、装置以及设备。方案包括：在原始样本中定位出敏感区域；通过针对所述敏感区域进行脱敏，将所述原始样本转换为脱敏样本；确定包含待保护模型及其对应的攻击模型的对抗网络模型；利用所述原始样本和所述脱敏样本，对所述对抗网络模型进行对抗训练，以使所述待保护模型转变为具有隐私保护的模型。权利要求书4页说明书13页附图3页 CN 114969814 A 2022.08.30 CN 114969814 A 1.一种模型隐私保护方法，包括：在原始样本中定位出敏感区域；通过针对所述敏感区域进行脱敏，将所述原始样本转换为脱敏样本；确定包含待保护模型及其对应的攻击模型的对抗网络模型；利用所述原始样本和所述脱敏样本，对所述对抗网络模型进行对抗训练，以使所述待保护模型转变为具有隐私保护的模型。 2.如权利要求1所述的方法，所述在原始样本中定位出敏感区域之前，所述方法还包括：根据第一原始样本的梯度表现，生成第一训练数据，并利用所述第一训练数据，训练敏感区域定位模型；所述在原始样本中定位出敏感区域，具体包括：利用所述敏感区域定位模型，在第二原始样本中定位出敏感区域。 3.如权利要求2所述的方法，所述第一原始样本为图像样本；所述根据第一原始样本的梯度表现，生成第一训练数据，具体包括：将所述图像样本输入所述待保护模型进行处理，通过梯度反向传播，得到所述图像样本的各像素分别对应的梯度；根据所述梯度确定对应所述像素的敏感度；根据处于同一区域的多个所述像素的敏感度，在所述图像样本中的多个区域中确定敏感区域，将所述图像样本及为其确定出的敏感区域作为第一训练数据。 4.如权利要求1所述的方法，所述针对所述敏感区域进行脱敏之前，所述方法还包括：根据第二训练数据在脱敏模型中的脱敏损失，以及对应的原始目标损失，对所述脱敏模型进行对抗训练；所述针对所述敏感区域进行脱敏，具体包括：利用所述脱敏模型，针对所述敏感区域进行脱敏。 5.如权利要求4所述的方法，所述对所述脱敏模型进行对抗训练之前，所述方法还包括：将第二训练数据输入所述待保护模型中进行处理后输出，得到第一输出结果；将第二训练数据通过所述脱敏模型脱敏后，在输入所述待保护模型中进行处理后输出，得到第二输出结果；根据所述第一输出结果与所述第二输出结果之间的差异，确定所述对应的原始目标损失。 6.如权利要求1所述的方法，所述利用所述原始样本和所述脱敏样本，对所述对抗网络模型进行对抗训练，具体包括：将所述脱敏样本，输入所述对抗网络模型包含的所述待保护模型进行处理；将所述原始样本，输入所述对抗网络模型包含的所述攻击模型进行处理，以尝试模拟所述待保护模型的输出；根据所述待保护模型和所述攻击模型分别的输出，对所述对抗网络模型进行对抗训练。 7.如权利要求6所述的方法，所述根据所述待保护模型和所述攻击模型分别的输出，对权　利　要　求　书 1/4 页 2 CN 114969814 A 2所述对抗网络模型进行对抗训练，具体包括：根据所述待保护模型和所述攻击模型分别的输出，确定所述待保护模型对应的原始目标损失，以及所述攻击模型对应的黑盒攻击损失；根据所述原始目标损失和所述黑盒攻击损失，对所述对抗网络模型进行对抗训练。 8.如权利要求7所述的方法，所述根据所述待保护模型和所述攻击模型分别的输出，确定所述待保护模型对应的原始目标损失，以及所述攻击模型对应的黑盒攻击损失，具体包括：根据所述待保护模型针对所述脱敏样本的输出，与对应标签或者针对所述原始样本的输出之间的差异，确定所述待保护模型对应的原始目标损失；根据所述待保护模型针对所述脱敏样本的输出，与所述攻击模型的输出之间的差异，确定所述攻击模型对应的黑盒攻击损失。 9.如权利要求7所述的方法，所述根据所述原始目标损失和所述黑盒攻击损失，对所述对抗网络模型进行对抗训练，具体包括：以最小化所述原始目标损失和最大化所述黑盒攻击损失为对抗训练目标，对所述对抗网络模型进行对抗训练。 10.如权利要求1所述的方法，所述待保护模型转变为具有隐私保护的模型之后，所述方法还包括：在当前的待推理对象中定位出敏感区域；通过针对所述待推理对象的所述敏感区域进行脱敏，将所述待推理对象转换为脱敏对象；通过所述具有隐私保护的模型，对所述脱敏对象进行推理，得到推理结果。 11.如权利要求1～10任一项所述的方法，所述待保护模型为非分类模型。 12.如权利要求11所述的方法，所述非分类模型包括图像分割模型，所述图像分割模型在转变为所述具有隐私保护的模型后，用于预测图像分割结果，并且抵御针对所述图像分割模型自身的黑盒攻击。 13.一种模型隐私保护装置，包括：敏感区域定位模块，在原始样本中定位出敏感区域；敏感区域脱敏模块，通过针对所述敏感区域进行脱敏，将所述原始样本转换为脱敏样本；对抗网络确定模块，确定包含待保护模型及其对应的攻击模型的对抗网络模型；敏感对抗训练模块，利用所述原始样本和所述脱敏样本，对所述对抗网络模型进行对抗训练，以使所述待保护模型转变为具有隐私保护的模型。 14.如权利要求13所述的装置，还包括：第一训练模块，在原始样本中定位出敏感区域之前，根据第一原始样本的梯度表现，生成第一训练数据，并利用所述第一训练数据，训练敏感区域定位模型；所述敏感区域定位模块，利用所述敏感区域定位模型，在第二原始样本中定位出敏感区域。 15.如权利要求14所述的装置，所述第一原始样本为图像样本；所述第一训练模块，将所述图像样本输入所述待保护模型进行处理，通过梯度反向传权　利　要　求　书 2/4 页 3 CN 114969814 A 3

专利 一种模型隐私保护方法、装置以及设备

专利一种模型隐私保护方法、装置以及设备