专利基于类重激活映射图的弱监督图像目标定位分析系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210864306.6 (22)申请日 2022.07.20 (71)申请人复旦大学地址 200433 上海市杨浦区邯郸路2 20号 (72)发明人张玥杰　徐际岚　刘靖正　 (74)专利代理机构上海正旦专利代理有限公司 31200 专利代理师陆飞　陆尤 (51)Int.Cl. G06V 10/24(2022.01) G06V 10/26(2022.01) G06V 10/762(2022.01) G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称基于类重激活映射图的弱监督图像目标定位分析系统 (57)摘要本发明属于图像处理技术领域，具体为基于类重激活映射图的弱监督图像目标定位分析系统。本发明包括：类别上下文特征学习模块、类别映射图重激活模块和类别映射图校准模块。类别上下文特征学习模块使用卷积神经网络对图像特征进行提取，生成初始类别映射图作为索引学习类别上下文特征；类别映射图重激活模块对类别上下文特征作为聚类簇中心，并应用期望最大化算法对图像像素特征聚类，使用隐变量作为类重激活映射图；类别映射图校准模块对类重激活映射图的前背景激活值进行校准，并聚合类别映射图。本发明有效解决了初始类别映射图的前背景激活值混淆问题，使前背景激活值区分度显著，在仅使用图像类别标签作为监督时提升目标定位结果。权利要求书4页说明书8页附图1页 CN 115311449 A 2022.11.08 CN 115311449 A 1.基于类重激活映射图的弱监督图像目标定位分析系统，其特征在于，包括类别上下文特征学习模块、类别映射图重激活模块与类重激活映射图校准模块；所述类别上下文特征学习模块对图像特征进行提取，生成初始类别映射图作为索引学习类别上下文特征；所述类别映射图重激活模块接受图像特征与类别上下文特征，通过像素级别的聚类判定前景与背景，并生成类重激活映射图，输入至类别映射图校准模块；所述类别映射图校准模块根据类别映射图定位粗略前景背景区域，并指导类重激活映射图校准前景与背景激活值。 2.根据权利要求1所述的弱监督图像目标定位分析系统，其特征在于，所述类别上下文特征学习模块包括图像特征提取网络和全连接神经网络分类器；图像特征提取网络使用 VGG16或Inception ‑V3或ResNet50深度卷积神经网络，对图像进行层级特征提取，生成维度为h×w×1,024维的空间特征向量f；特征向量f送入全连接神经网络分类器；全连接神经网络分类器对第c个类别，将空间特征向量f与全连接网络权重w进行加权求和，得到维度为h ×w的初始类别映射图Mc；该过程表示为： fk为空间特征向量f的第k个分量，为对应于第c个类别的权重w的第k个分量；基于类别映射图，分类器对于图像的最终类别预测表示为：其中， i,j代表空间位置；根据公式(2)可知，使用神经网络分类器和类别映射图解决图像弱监督目标定位问题可被归纳为解决 “哪些像素对类别预测做出贡献 ”；把类别映射图归一化到[0,1]区间中，并通过阈值τ进行二值化；对于类别映射图中每个位置的数值，若大于 τ则该位置被当作前景部分，否则作为背景部分。 3.根据权利要求2所述的弱监督图像目标定位分析系统，其特征在于，所述生成初始类别映射图作为索引学习类别上下文特征，具体为：对于每个类别c，前景上下文特征向量和背景上下文特征向量分别表示为和上下文特征向量都是d维特征向量，并作为每个类别的簇中心用于概括该类别的共同前景和背景特征；首先，将初始类别映射图二值化：其中， δ表示阈值； 1()代表指示函数；与作为前景和背景的粗略估计；对于每个样本，深层特征为F，使用前景和背景的估计与分别获取前景与背景特征，并用均值更新上下文特征向量；具体过程表示为：权　利　要　求　书 1/4 页 2 CN 115311449 A 2其中， Fij代表特征F在空间位置(i,j)的值； || ·||0计算所有非零值个数；前景与背景上下文特征向量使用动量更新，动量参数为λ；使用动量更新能够确保上下文特征更新缓慢，维护更多的历史特征。 4.根据权利要求3所述的弱监督图像目标定位分析系统，其特征在于，所述类别映射图重激活模块对类别映射图进行重激活，提升前景部分的激活值，增大前背景激活值区分度，使目标定位更准确；该模块将重激活问题定义为基于高斯混合模型的参数估计问题，并使用期望最大化算法解该问题；期望最大化算法为最大似然估计在含有隐变量的概率模型的延伸；具体地：对于每个样本x，目标是最大化如下似然：其中，参数为模型参数(fg， bg分别表示前景与背景)；对于每个图像像素xij，其服从一个概率混合模型，由前景高斯分布和背景高斯分布组成：其中，混合权重 afg,abg为[0,1]之间的实数，且符合afg+abg＝1；前景与背景基模型pfg和 pbg衡量图像特征和已学习好的类别上下文特征向量；采用余弦相似度作为度量：其中， σ 为超参数控制平滑程度。 5.根据权利要求4所述的弱监督图像目标定位分析系统，其特征在于，所述使用期望最大化算法解该问题，具体为：定义隐变量Zfg和Zbg分别表示在位置(i,j)图像像素属于前景和背景的概率； E步骤：期望最大化算法先根据经验为每个类别即隐变量赋予一个初始分布，其作用是假定分布参数Vfg与Vbg，并根据分布参数求每个数据的隐藏变量期望； M步骤：再根据归类结果计算分布参数的最大似然值，根据这个最大似然值重新计算每个数据的隐藏变量的期望；循环往复直至收敛； E步骤中，当前模型的参数被用来计算隐变量的后验分布，即和在每轮迭代过程中t(1≤t≤T)中，假设模型参数为固定，隐变量的计算过程表示为：权　利　要　求　书 2/4 页 3 CN 115311449 A 3

专利 基于类重激活映射图的弱监督图像目标定位分析系统

专利基于类重激活映射图的弱监督图像目标定位分析系统