(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211144421.2
(22)申请日 2022.09.20
(71)申请人 河南大学
地址 475001 河南省开封市顺河区明伦街
85号
(72)发明人 梁文娟 殷梦晗 阎朝坤
(74)专利代理 机构 郑州大通专利商标代理有限
公司 41111
专利代理师 刘莹莹
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/778(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 21/62(2013.01)
(54)发明名称
面向COVID-19胸部X射线图像分类学习的训
练数据隐私保护方法
(57)摘要
本发明提供一种面向COVID ‑19胸部X射线图
像分类学习的训练数据隐私保护方法。 该方法包
括: 收集真实标签样本和无标签样本构成数据
集, 对数据集进行划分以得到教师机分类模型的
训练集Dt‑train和测试集Dt‑test、 学生机分类模型
的训练集Ds‑train和测试集Ds‑test; 利用Dt‑train和
Dt‑test, 基于孪生网络模型训练m个教师机分类模
型; 利用m个教师机分类模型对Ds‑train中的每个
样本进行预测, 并对m个教师机分类模型的投票
结果添加差分隐私噪声以得到Ds‑train中每个样
本的噪声聚合标签, 所有样本及其对应的噪声聚
合标签构成一个新的学生机分类模型的训练集
D's‑train; 利用无标签样本和D's‑train, 基于
MixMatch半监督训练方法隐私化训练学生机分
类模型; 发布并使用训练好的隐私化学生机分类
模型来完成COVID ‑19胸部X射线图像分类学习任
务。
权利要求书3页 说明书8页 附图2页
CN 115482435 A
2022.12.16
CN 115482435 A
1.面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护方法, 其特征在于, 包
括:
步骤1: 收集真实标签样本和无标签样本构 成数据集, 对所述数据集进行划分以分别得
到教师机分类模型的训练集Dt‑train和测试集Dt‑test、 学生机分类模型的训练集Ds‑train和测试
集Ds‑test;
步骤2: 利用训练集Dt‑train和测试集Dt‑test, 基于孪生网络模型训练m个教师机分类模型;
步骤3: 利用训练好的m个教师机分类模型对训练集Ds‑train中的每个样本的标签进行预
测, 并对m个教师机分类模型的投票结果添加差分隐私噪声以得到训练集Ds‑train中每个样
本的噪声聚合标签, 所有样本及其对应的噪声聚合标签构成一个新的学生机分类模型的训
练集D's‑train;
步骤4: 利用无标签样本和训练集D's‑train, 基于MixMatch半监督训练方法隐私化训练学
生机分类模型;
步骤5: 发布并使用训练好的隐私化学生机分类模型来完成COVID ‑19胸部X射线图像分
类学习任务。
2.根据权利要求1所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤1具体包括:
将真实标签样本构成的数据子集记作DL, 将无标签样本构成的数据子集记作DU; 将DL按
照一定比例分为DLTrain、 DLTest和DLVer; 将DLTrain作为教师机分类模型的训练集, DLTest作为教师
机分类模型的测试集, DLTest+DU作为学生机分类模型的训练集, DLVer作为学生机分类模型的
测试集。
3.根据权利要求1所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤2具体包括:
步骤2.1: 将训练集Dt‑train分为m个不相交的子集, 一个子集对应用于一个教师机分类模
型的k‑way n‑shot的训练; 每 个教师机分类模型的训练过程包括 步骤2.2至步骤2.6;
步骤2.2: 从对应的子集中随机抽取一个batc h的样本, 并标注正样本对和负 样本对;
步骤2.3: 对于每个样本对(x1,x2), 将其送入两个具有相同权重w的CNN特征提取器, 分
别得到对应的特 征嵌入z1(x1)和z2(x2); 其中, z1(.)和z2(.)表示两个CN N特征提取器;
步骤2.4: 基于特 征嵌入z1(x1)和z2(x2), 计算图像x1和x2间的距离;
步骤2.5: 将两个图像的距离 差异嵌入到l oss层, 并进行反向传播;
步骤2.6: 根据反向传播损失计算梯度, 使用优化器更新权 重w。
4.根据权利要求3所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤2.3中, CN N特征提取器采用预训练好的VG G‑16模型。
5.根据权利要求3所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤2.4中, 采用公式(2)计算图像x1和x2间的距离 EW(x1,x2):
EW(x1,x2)=dw(x1,x2)=||z1(x1)‑z2(x2)|| (2)。
6.根据权利要求3所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤2.5中, l oss层采用Co ntrastive loss作为损失函数。
7.根据权利要求1所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤3具体包括:权 利 要 求 书 1/3 页
2
CN 115482435 A
2步骤3.1: 针对训练集Ds‑train中的每个样本x, 利用m个教师机分类模型进行标签 预测, 存
在预测标签为j∈[c]的教师机分类模型投票结果nj(x)为: nj(x)=|{i:i∈[m],fi(x)=j}
|, 然后按照公式(3)对nj(x)进行拉普拉斯扰动以添加差分隐私噪声;
其中, c表示标签类别数, i表示教师机分类模型的序号, fi(x)表示第i个教师机分类模
型对样本x的预测结果, γ表示隐私预算, Lap(1/γ))表示在nj(x)中添加位置为0且噪声尺
度参数为1/γ的拉普拉斯噪声;
步骤3.2: 基于所有教师机分类模型关于样本x 的投票结果f(x), 选取最高投票数的类
别j作为样本x的噪声聚合标签。
8.根据权利要求1所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤4具体包括:
步骤4.1: 将无标签样本构成的数据子集记作DU, 分别对训练集Ds'‑train中一个batch中
的每个样本xb做一次数据增强, 对DU中一个batc h的每个样本ub做K次数据增强;
步骤4.2: 针对每个样本ub, 利用学生机分类模型对其对应的K次数据增强后的K个样本
进行分类并对K个分类结果进行平均, 得到样本ub的伪标签;
步骤4.3: 利用公式(4)对样本ub的伪标签进行锐化以得到该伪标签的概 率;
其中, T是温度参数, i和j表示分类号, p和C分别表示类别概 率和类别数。
步骤4.4: 通过MixUp对数据增强后的训练集Ds'‑train中一个batch的所有样本和K个
batch的带有伪标签的无 标签样本进行混合;
步骤4.5: 将步骤4.4得到的(K+1)个batch的样本输入至学生机分类模型, 计算损失函
数值;
步骤4.6: 根据反向传播损失计算梯度, 使用Adam优化器更新学生机分类模型的权 重。
9.根据权利要求8所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤4.4具体包括:
将数据增强后的训练集D's‑train中一个batch的所有样本组成的数据子集记作
将K个batch的带有伪标签的无标签样本组成的数据子集记作
其中, B表示batch大小,
表示对有标签样本xb数据增
强后的样本, pb表示
对应的标签的概率,
表示无标签样本ub数据增强后的样 本, qb表示
对应的标签的概 率;
将
和
混合在一起, 随机重排得到数据集W; 将
和W通过
输出标记数据
X’; 将
和W通过
输出标记数据U ’; 其中, 对于样本(x1,p1)和样本(x2,p2), 经过
MixUp之后的样本(x',p'), 存在x'=λ'x1+(1‑λ')x2, p'=λ'p1+(1‑λ')p2; 其中, 使用超参数
α, 通过Beta抽样得到 权重因子 λ'。
10.根据权利 要求8所述的面向COVID ‑19胸部X射线图像分类学习的训练数据隐私保护
方法, 其特 征在于, 步骤4.5中, 按照公式(5)计算损失函数值 L;权 利 要 求 书 2/3 页
3
CN 115482435 A
3
专利 面向COVID-19胸部X射线图像分类学习的训练数据隐私保护方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:58:32上传分享