专利面向COVID-19胸部X射线图像分类学习的训练数据隐私保护方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211144421.2 (22)申请日 2022.09.20 (71)申请人河南大学地址 475001 河南省开封市顺河区明伦街 85号 (72)发明人梁文娟　殷梦晗　阎朝坤　 (74)专利代理机构郑州大通专利商标代理有限公司 41111 专利代理师刘莹莹 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/778(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 21/62(2013.01) (54)发明名称面向COVID-19胸部X射线图像分类学习的训练数据隐私保护方法 (57)摘要本发明提供一种面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法。该方法包括：收集真实标签样本和无标签样本构成数据集，对数据集进行划分以得到教师机分类模型的训练集Dt‑train和测试集Dt‑test、学生机分类模型的训练集Ds‑train和测试集Ds‑test；利用Dt‑train和 Dt‑test，基于孪生网络模型训练m个教师机分类模型；利用m个教师机分类模型对Ds‑train中的每个样本进行预测，并对m个教师机分类模型的投票结果添加差分隐私噪声以得到Ds‑train中每个样本的噪声聚合标签，所有样本及其对应的噪声聚合标签构成一个新的学生机分类模型的训练集 D's‑train；利用无标签样本和D's‑train，基于 MixMatch半监督训练方法隐私化训练学生机分类模型；发布并使用训练好的隐私化学生机分类模型来完成COVID ‑19胸部X射线图像分类学习任务。权利要求书3页说明书8页附图2页 CN 115482435 A 2022.12.16 CN 115482435 A 1.面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，包括：步骤1：收集真实标签样本和无标签样本构成数据集，对所述数据集进行划分以分别得到教师机分类模型的训练集Dt‑train和测试集Dt‑test、学生机分类模型的训练集Ds‑train和测试集Ds‑test；步骤2：利用训练集Dt‑train和测试集Dt‑test，基于孪生网络模型训练m个教师机分类模型；步骤3：利用训练好的m个教师机分类模型对训练集Ds‑train中的每个样本的标签进行预测，并对m个教师机分类模型的投票结果添加差分隐私噪声以得到训练集Ds‑train中每个样本的噪声聚合标签，所有样本及其对应的噪声聚合标签构成一个新的学生机分类模型的训练集D's‑train；步骤4：利用无标签样本和训练集D's‑train，基于MixMatch半监督训练方法隐私化训练学生机分类模型；步骤5：发布并使用训练好的隐私化学生机分类模型来完成COVID ‑19胸部X射线图像分类学习任务。 2.根据权利要求1所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤1具体包括：将真实标签样本构成的数据子集记作DL，将无标签样本构成的数据子集记作DU；将DL按照一定比例分为DLTrain、 DLTest和DLVer；将DLTrain作为教师机分类模型的训练集， DLTest作为教师机分类模型的测试集， DLTest+DU作为学生机分类模型的训练集， DLVer作为学生机分类模型的测试集。 3.根据权利要求1所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤2具体包括：步骤2.1：将训练集Dt‑train分为m个不相交的子集，一个子集对应用于一个教师机分类模型的k‑way n‑shot的训练；每个教师机分类模型的训练过程包括步骤2.2至步骤2.6；步骤2.2：从对应的子集中随机抽取一个batc h的样本，并标注正样本对和负样本对；步骤2.3：对于每个样本对(x1,x2)，将其送入两个具有相同权重w的CNN特征提取器，分别得到对应的特征嵌入z1(x1)和z2(x2)；其中， z1(.)和z2(.)表示两个CN N特征提取器；步骤2.4：基于特征嵌入z1(x1)和z2(x2)，计算图像x1和x2间的距离；步骤2.5：将两个图像的距离差异嵌入到l oss层，并进行反向传播；步骤2.6：根据反向传播损失计算梯度，使用优化器更新权重w。 4.根据权利要求3所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤2.3中， CN N特征提取器采用预训练好的VG G‑16模型。 5.根据权利要求3所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤2.4中，采用公式(2)计算图像x1和x2间的距离 EW(x1,x2)： EW(x1,x2)＝dw(x1,x2)＝||z1(x1)‑z2(x2)|| (2)。 6.根据权利要求3所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤2.5中， l oss层采用Co ntrastive loss作为损失函数。 7.根据权利要求1所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤3具体包括：权　利　要　求　书 1/3 页 2 CN 115482435 A 2步骤3.1：针对训练集Ds‑train中的每个样本x，利用m个教师机分类模型进行标签预测，存在预测标签为j∈[c]的教师机分类模型投票结果nj(x)为： nj(x)＝|{i:i∈[m],fi(x)＝j} |，然后按照公式(3)对nj(x)进行拉普拉斯扰动以添加差分隐私噪声；其中， c表示标签类别数， i表示教师机分类模型的序号， fi(x)表示第i个教师机分类模型对样本x的预测结果， γ表示隐私预算， Lap(1/γ))表示在nj(x)中添加位置为0且噪声尺度参数为1/γ的拉普拉斯噪声；步骤3.2：基于所有教师机分类模型关于样本x 的投票结果f(x)，选取最高投票数的类别j作为样本x的噪声聚合标签。 8.根据权利要求1所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤4具体包括：步骤4.1：将无标签样本构成的数据子集记作DU，分别对训练集Ds'‑train中一个batch中的每个样本xb做一次数据增强，对DU中一个batc h的每个样本ub做K次数据增强；步骤4.2：针对每个样本ub，利用学生机分类模型对其对应的K次数据增强后的K个样本进行分类并对K个分类结果进行平均，得到样本ub的伪标签；步骤4.3：利用公式(4)对样本ub的伪标签进行锐化以得到该伪标签的概率；其中， T是温度参数， i和j表示分类号， p和C分别表示类别概率和类别数。步骤4.4：通过MixUp对数据增强后的训练集Ds'‑train中一个batch的所有样本和K个 batch的带有伪标签的无标签样本进行混合；步骤4.5：将步骤4.4得到的(K+1)个batch的样本输入至学生机分类模型，计算损失函数值；步骤4.6：根据反向传播损失计算梯度，使用Adam优化器更新学生机分类模型的权重。 9.根据权利要求8所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤4.4具体包括：将数据增强后的训练集D's‑train中一个batch的所有样本组成的数据子集记作将K个batch的带有伪标签的无标签样本组成的数据子集记作其中， B表示batch大小，表示对有标签样本xb数据增强后的样本， pb表示对应的标签的概率，表示无标签样本ub数据增强后的样本， qb表示对应的标签的概率；将和混合在一起，随机重排得到数据集W；将和W通过输出标记数据 X’；将和W通过输出标记数据U ’；其中，对于样本(x1,p1)和样本(x2,p2)，经过 MixUp之后的样本(x',p')，存在x'＝λ'x1+(1‑λ')x2， p'＝λ'p1+(1‑λ')p2；其中，使用超参数 α，通过Beta抽样得到权重因子 λ'。 10.根据权利要求8所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法，其特征在于，步骤4.5中，按照公式(5)计算损失函数值 L；权　利　要　求　书 2/3 页 3 CN 115482435 A 3

专利 面向COVID-19胸部X射线图像分类学习的训练数据隐私保护方法

专利面向COVID-19胸部X射线图像分类学习的训练数据隐私保护方法