专利一种基于特征图融合的类激活映射方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210448707.3 (22)申请日 2022.04.26 (71)申请人湖北工业大学地址 430068 湖北省武汉市洪山区南李路 28号 (72)发明人曾春艳　严康　王志锋　万相奎　冯世雄　孔帅　余琰　夏诗言　李坤　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 专利代理师鲁力 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/77(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于特征图融合的类激活映射方法及装置 (57)摘要本发明涉及一种基于特征图融合的类激活映射方法及装置。首先将电气设备图像输入至已训练好的卷积神经网络提取每一个卷积层的特征图，并将其融合后输出一个预测该图像类别的分数，并计算特征图相对于分数的梯度；将得到的梯度进行全局平均池化操作得到权重并将其与对应的特征图相乘， ReLU操作后得到最后的类激活图。本发明通过对深浅层特征图的融合，可让融合后的特征图同时具备深浅层特征图的优点，可以生成性能更好的类激活图。权利要求书1页说明书3页附图1页 CN 114821258 A 2022.07.29 CN 114821258 A 1.一种基于特征图融合的类激活映射方法，其特征在于，包括：将电气设备图像输入至已训练好的卷积神经网络提取每一个卷积层的特征图，并将其融合后输出一个预测该图像类别的分数，并计算特征图相对于分数的梯度；将得到的梯度进行全局平均池化操作得到权重并将其与对应的特征图相乘， ReLU操作后得到最后的类激活图 2.根据权利要求1所述的一种基于特征图融合的类激活映射方法，其特征在于，提取所有卷积层的特征图并融合特征图具体包括：步骤1.1、提取所有卷积层的特征图：对于一张给定的电气设备图像 X0送入模型Y，提取Y 中每一个卷积层l的特征图A， A的第k个特征图表示为步骤1.2、融合特征图：将提取的每一个特征图融合在一起。 3.根据权利要求1所述的一种基于特征图融合的类激活映射方法，其特征在于，输出类别分数并计算其梯度具体包括：步骤2.1、输出类别分数：模型Y 输出预测该图像类别的分数Yc(X0)；步骤2.2、计算梯度：计算特征图中空间位置(i,j)相对于 Yc(X0)分数的梯度 4.根据权利要求1所述的一种基于特征图融合的类激活映射方法，其特征在于，全局平均池化得到权重具体包括：步骤3.1、全局平均池化得到权重：将梯度进行全局平均池化操作，得到权重其中Z表示特征图的像素数目。 5.根据权利要求1所述的一种基于特征图融合的类激活映射方法，其特征在于，得到最终类激活图具体包括：步骤4.1、得到最终类激活图：将权重与特征图线性结合，并进行上采样和归一化操作得到最终类激活图其中U表示上采样操作， S表示归一化操作。 6.一种基于特征图融合的类激活映射装置，采用权利要求1至5任意一项所述方法，其特征在于，包括：第一模块：将电气设备图像输入至已训练好的卷积神经网络提取每一个卷积层的特征图，并将其融合后输出一个预测该图像类别的分数，并计算特征图相对于分数的梯度；第二模块：将得到的梯度进行全局平均池化操作得到权重并将其与对应的特征图相乘， ReLU操作后得到最后的类激活图权　利　要　求　书 1/1 页 2 CN 114821258 A 2一种基于特征图融合的类激活映射方法及装置技术领域 [0001]本发明涉及计算机视觉、深度学习可解释性领域，主要涉及一种基于特征图融合的类激活映射方法及装置。背景技术 [0002]深度神经网络(Deep Neural Networks,DNN)推动了深度学习在计算机视觉领域取得巨大进展。但其参数多、 “端到端”、大量非线性网络层的复杂组合等特点，让人们无法理解模型做出决策的机理。模型可解释性的缺失严重阻碍了其在医学诊断、金融、自动驾驶、军事等高风险决策领域的应用，因此对DNN可解释性的研究具有重要意义。为了提高模型透明度，让人们更加信任模型，诸多可解释性方法相继提出。其中可视化方法被广泛研究，它以显著图的方式对模型表征和决策进行解释，显著图中像素颜色强度对应着决策结果的重要性。可视化方法主要分为基于扰动、基于梯度、基于类激活映射。 [0003]通过对CNN的特征图进行可视化可以得出以下结论： 1.CNN不同层特征图的关注点不同。浅层更倾向于学习边缘、纹理等细节特征，提取出更全面、噪声大的物体信息。 2.越往高层特征表达越抽象，深层学习的是轮廓、形状等代表性特征，只能学习到粗略的位置信息。越往高层的卷积层神经元，所含语义信息越丰富，对物体、场景等目标越具有区分性。 3. 虽然特征图可视化能够帮助理解CNN学习到了输入图像的哪些特征，但无法确定其中哪些特征与当前决策结果的关联性更高，即无法对CN N的决策结果做出有效解释。 [0004]基于类激活映射方法是目前最主流的可视化显著图技术，被广泛应用于解释模型内部决策，它能够针对CNN决策结果生成特定类别相关的类激活图，具有较好的类别区分性，可有效地定位目标对象。最早提出的基于类激活映射方法—CAM，它通过提取CNN最后一个卷积层的特征图，与权重加权求和生成类激活图。而在随后提出的Grad ‑CAM、 Grad ‑CAM+ +、 Score‑CAM方法中，它们都倾向于利用CNN最后一个卷积层来提取特征图。上述方法具有一个共性问题：它们都依赖于CNN的最后一个卷积层来生成类激活图。虽然CNN里最后一层卷积单元具有出色的定位物体能力，但最后一个卷积层输出的空间分辨率较低，因此生成的类激活图只能定位目标对象的粗略区域。而CNN的浅层具有更大的空间分辨率，能够捕捉目标对象更细粒度的定位信息。因此，本发明以CNN每个卷积层为研究对象，通过合并不同卷积层生成的特征图，提出一种基于特征图融合的类激活映射方法—F ‑CAM(Feature map fusion Class Activation Mapping‑based)用于图像识别的可解释性研究，通过对深浅层特征图的融合，可让融合后的特征图同时具备深浅层特征图的优点，可以生成性能更好的类激活图。发明内容 [0005]本发明主要是解决现有类激活方法都依赖于CNN的最后一个卷积层来生成类激活图，而生成的类激活图只能定位目标对象的粗略区域的问题。如附图1所示，本发明提出一种基于特征图融合的类激活映射方法—F ‑CAM，生成的类激活图可以获得更精确且更有辨说　明　书 1/3 页 3 CN 114821258 A 3

专利 一种基于特征图融合的类激活映射方法及装置

专利一种基于特征图融合的类激活映射方法及装置