专利基于类别激活映射的行人重识别生成学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210038244.3 (22)申请日 2022.01.13 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号 (72)发明人毛莎莎　李昂泽　齐梦男　缑水平　焦昶哲　焦李成　何婧洁　 (74)专利代理机构陕西电子工业专利中心 61205 专利代理师王品华 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于类别激活映射的行人重识别生成学习方法 (57)摘要本发明公开一种基于类别激活映射的行人重识别生成学习方法，主要解决现有技术收集的数据集不平衡导致行人重识别模型性能差的问题。其方案为：建立行人重识别生成学习深度网络模型； 1)从行人重识别基准数据集中读取行人图像； 2)获取行人姿态特征信息； 3)获取行人外观特征信息； 4)通过3)进行行人重识别； 5)通过 2)和3)生成行人图像并计算类别激活映射损失； 6)对生成图像在线进行行人重识别分类，并计算分类损失； 7)对各损失进行反向传播； 8)重复1) ‑ 7)更新深度网络模型参数，直到损失函数值趋于稳定，完成行人重识别生成学习。本发明能生成高质量的行人图像，增强行人重识别网络的性能，可用于智能安保、智能行人追踪。权利要求书5页说明书11页附图2页 CN 114495163 A 2022.05.13 CN 114495163 A 1.一种基于类别激活映射的行人重识别生成学习方法，其特征在于，包括： (1)建立行人重识别生成学习深度网络模型： 1a)建立依次由3个卷积层和2 个残差块级联组成的姿态编码器Ep，随机初始化姿态编码器的网络参数； 1b)对Resnet50神经网络进行改进，建立全局外观编码器Eag，即去掉Resnet50神经网络最后的池化层和Softmax层，构成全局外观编码器Eag，初始化全局外观编码器Eag的网络参数； 1c)对Resnet50神经网络进行改进，建立局部外观编码器Eal，即去掉Resnet50神经网络最后的池化层和So ftmax层，并增加一个卷积层，构成局部外观编码器Eal，初始化局部外观编码器Eal的网络参数； 1d)建立依次由2个残差块和3个卷积层级联组成的解码器G，随机初始化网络参数； 1e)分别建立依次3个卷积层和3个残差块级联组成的姿态判别器Dp和外观判别器Dt，分别随机初始化姿态判别器Dp和外观判别器Dt的网络参数； 1f)建立由两层全连接层级联和一个softmax函数组成的行人重识别分类器，随机初始化网络参数； (2)从行人重识别基准数据集中任意读取一张图像xi作为源图像，并在与xi同一类别下和不同类别下分别随机读取一张图像xj和xt作为两个目标图像； (3)对行人姿态信息编码，获得姿态特征信息： 3a)对目标图像xj和xt的行姿态关键点进行提取，得到目标姿态关键点pj和pt； 3b)将目标姿态关键点pj和pt输入到1a)的姿态编码器中进行行人姿态信息编码，得到两张目标图像的姿态特征信息和ftp； (4)获取全局的外观特征信息和局部的外观特征信息： 4a)将源图像xi输入到全局外观编码器Eag中进行行人图像编码，得到行人全局的外观特征信息fig； 4b)利用已有的人体解析网络，将输入的源图像xi分割为8个区域掩模mi，用源图像xi与这8个区域掩模分别相乘，得到源图像xi的8个局部区域其中k∈[1,8]； 4c)将源图像xi的8个局部区域输入到局部外观编码器Eal中进行人体解析编码，输出源图像xi的8个局部区域的外观特征fik，将该8个局部区域的外观特征级联，得到行人解析编码后的局部外观特征信息fil； (5)行人重识别：即将源图像xi的全局外观特征fig输入到行人重识别分类器中，得到源图像xi的分类结果，并计算分类结果的交叉熵损失Li； (6)行人图像生成并计算类别激活映射损失： 6a)将源图像xi的全局外观特征信息fig和局部外观特征信息fil进行级联，得到整体外观特征信息(fil,fig)； 6b)将整体外观特征信息(fil,fig)和第一张目标图像的姿态特征信息同时输入到解码器G中，得到目标图像xj的重建图像xi,j； 6c)将整体外观特征信息(fil,fig)和第二张目标图像的姿态特征信息ftp同时输入到解权　利　要　求　书 1/5 页 2 CN 114495163 A 2码器G中，得到具有目标姿态的生成图像xi,t； 6d)将重建图像xi,j分别输入到姿态判别器Dp和外观判别器Dt中，得到姿态判别器Dp对重建图像xi,j姿态真实度的判别结果和外观判别器Dt对重建图像xi,j外观真实度的判别结果，分别计算这两个判别器对重建图像判别结果的生成对抗损失Lp和Lt； 6e)将生成图像xi,t分别输入到姿态判别器Dp和外观判别器Dt中，得到姿态判别器Dp对生成图像xi,t姿态真实度的判别结果和外观判别器Dt对生成图像xi,t外观真实度的判别结果，分别计算这两个判别器对生成图像判别结果的生成对抗损失Lp'和Lt'； 6f)将目标图像xj和xt输入到1b)的全局外观编码器Eag中，得到对应的全局外观信息和ftg，将该全局外观信息和ftg输入到1f)中的分类器中，得到目标图像xj和xt的分类结果； 6g)基于6f)的分类结果，通过Grad ‑CAM方法，分别计算出目标图像xj和xt对应的类别激活映射图的像素值，得到类别激活映射图hj和ht； 6h)利用与6f)和6g)相同的方式，得到重建图像xi,j和生成图像xi,t的类别激活映射图 hi,j和hi,t，并计算类别激活映射损失Lg； (7)将生成图像xi,t重新输入1b)的全局外观编码器Eag中，得到生成图像xi,t的全局外观特征信息再将该信息输入到1f)的行人重识别分类器中，得到生成图像xi,t的分类结果，计算该分类结果的交叉熵损失Li'； (8)对(5)、 6d)、 6e)、 6h)和(7)中得到的损失进行反向传播，分别更新姿态编码器Ep、全局外观编码器Eag、局部外观编码器Eal、解码器G、姿态判别器Dp、外观判别器Dt中的参数，使得这些损失函数值尽量趋近于零； (9)重复步骤(2) ‑(8)直到损失函数值趋于稳定，生成高质量的行人图像，完成行人重识别生成学习。 2.根据权利要求1所述的方法，其中1a)中建立的姿态编码器Ep，其各层参数均从均值为 0，方差为0.02的正态分布中随机采样得到，分别设置如下：第一卷积层的输入维度18，输出维度64，卷积核尺寸为7*7；第二卷积层的输入维度64，输出维度128，卷积核尺寸为4*4；第三卷积层的输入维度128，输出维度25 6，卷积核尺寸为4*4；第一残差块的输入维度均为25 6，输出维度均为25 6，卷积核尺寸均为3 *3；第二残差块参数与第一残差块相同。 3.根据权利要求1所述的方法，其中1b)构建的全局外观编码器Eag和局部外观编码器 Eal，其参数分别如下：所述全局外观编码器Eag，其参数与在大规模自然图像数据集ImageNet上预训练的 ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同；所述局部外观编码器Eal，其参数与在大规模自然图像数据集ImageNet上预训练的 ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同；其所增加的卷积层输入维度为2048，输出维度为128，卷积核尺寸为1*1，这些参数从均值为0，方差为0.02的正态分布中随机采样得到。 4.根据权利要求1所述的方法，其中1d)建立的解码器G，其各层参数均从均值为0，方差权　利　要　求　书 2/5 页 3 CN 114495163 A 3

专利 基于类别激活映射的行人重识别生成学习方法

专利基于类别激活映射的行人重识别生成学习方法