专利一种基于多投影表征的全景图像显著性目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210865756.7 (22)申请日 2022.07.22 (71)申请人北京交通大学地址 100044 北京市海淀区上园村 3号 (72)发明人丛润民　黄可　吴春雷　白慧慧　赵耀　 (74)专利代理机构北京卫平智业专利代理事务所(普通合伙) 11392 专利代理师闫萍 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多投影表征的全景图像显著性目标检测方法 (57)摘要本发明涉及一种基于多投影表征的全景图像显著性目标检测方法，构建一个编码器 ‑解码器结构的端到端检测网络，将等矩形投影图像和相应的四个立方体展开图像共同作为检测网络的输入；在编码器阶段，等矩形投影分支和立方体展开分支通过共享参数的五十层深度残差网络ResNet ‑50提取特征；在解码器阶段，动态加权融合模块自适应地融合等矩形投影特征和四种立方体展开特征，过滤与细化模块结合编码与解码特征，得到最终的显著性图。本发明，检测网络结合等矩形投影与立方体展开两种全景图像的表征方式，将等矩形投影图像和相应的四个立方体展开图像作为共同输入，其中，立方体展开图像为等矩形投影图像提供补充信息，确保目标的完整性。权利要求书3页说明书11页附图1页 CN 115424100 A 2022.12.02 CN 115424100 A 1.一种基于多投影表征的全景图像显著性目标检测方法，其特征在于，构建一个编码器‑解码器结构的端到端检测网络，将等矩形投影图像和相应的四个立方体展开图像共同作为检测网络的输入；所述等矩形投影图像和四个立方体展开图像，分别对应编码器的两个分支，即等矩形投影分支和立方体展开分支；在编码器阶段，等矩形投影分支和立方体展开分支通过共享参数的五十层深度残差网络ResNet ‑50提取特征；在解码器阶段，动态加权融合模块自适应地融合等矩形投影特征和四种立方体展开特征，过滤与细化模块结合编码与解码特征，得到最终的显著性图。 2.如权利要求1所述的一种基于多投影表征的全景图像显著性目标检测方法，其特征在于，所述动态加权融合模块包括门控表征间融合单元和加权表征内融合单元，分别从表征间和表征内两个角度对不同投影表征特征进行自适应融合；最终，表征间融合和表征内融合被整合到动态加权融合模块中，自适应地融合两种投影表征的编码器特征；所述过滤与细化模块通过过滤策略抑制特征本身与特征之间的冗余信息，同时通过细化策略保留与显著性目标相关的细节信息。 3.如权利要求1所述的一种基于多投影表征的全景图像显著性目标检测方法，其特征在于，在编码器阶段，两个分支采用共享参数的五十层深度残差网络ResNet ‑50作为编码器，通过编码器对等矩形投影图像和立方体展开图像的特征提取，以学习全景图的多投影表征特征，所述特征提取具体包括：在两层低层的特征提取后，利用立方体 ‑等矩形投影转换模块将立方体展开特征转化为等矩形投影特征，再继续更高层的特征提取。 4.如权利要求1所述的一种基于多投影表征的全景图像显著性目标检测方法，其特征在于，在解码器阶段，将检测网络学到的多层次和多投影表征的编码器特征送入到解码器中，以逐步恢复空间分辨率，并生成显著性图，具体包括：网络中的动态加权融合模块从表征间和表征内两个角度，自适应地融合了等矩形投影特征和立方体展开特征，从而筛选出更有效、更全面的特征；过滤与细化模块通过过滤不同投影表征特征的低层特征中的冗余信息，从而增强高层语义特征；检测网络在主要损失函数和所有侧输出损失函数的共同监督下，得到最终的显著性图。 5.如权利要求1所述的一种基于多投影表征的全景图像显著性目标检测方法，其特征在于，所述四个立方体展开图像采用四面水平连接、三面垂直连接的立方体展开方式，这种展开方式能够延伸立方体面之间在水平和垂直方向上的连续性，从而最大限度地增加图像中目标的完整性；具体包括：以立方体投影图像的前、后、左、右四个面为中心，分别进行4 ‑3型展开，从而得到四个立方体展开图像，并将这四个立方体展开图像作为立方体展开分支的输入。 6.如权利要求1所述的一种基于多投影表征的全景图像显著性目标检测方法，其特征在于，将四个立方体展开图像与等矩形投影图像一起送入编码器后，将立方体展开图像分权　利　要　求　书 1/3 页 2 CN 115424100 A 2成水平子图像和垂直子图像，分别进行低层的特征提取；通过立方体 ‑等矩形投影转换模块，将立方体展开特征转换为等矩形投影格式，再继续提取高层语义特征，补偿立方体面连接时轻微的语义不连续。 7.如权利要求1所述的一种基于多投影表征的全景图像显著性目标检测方法，其特征在于，所述动态加权融合模块自适应地融合等矩形投影特征和四种立方体展开特征，具体包括：采用一个门控表征间融合单元实现两种投影表征特征的融合，将各立方体展开特征与等矩形投影特征的表征间融合，自适应地筛选出两种不同投影表征特征中有价值的部分，得到由立方体展开引导的融合特征；门控表征间融合单元首先学习一个重要性图Pi，用以评估立方体展开特征在融合中的贡献；再将等矩形投影特征FE与每个立方体展开特征在通道维度进行拼接，然后使用SE 模块计算通道注意力，随后通过一个瓶颈卷积层和sigmo id激活函数得到重要性图Pi；在得到重要性图Pi后，由立方体展开引导的融合特征则可以通过以下公式计算：式中，表示哈达玛乘法(Hadamard multiplication)， Fi表示由立方体展开引导的融合特征，即为门控表征间融合单元的最终输出；通过上述门控表征间融合单元，四个立方体展开特征分别与等矩形投影特征进行自适应融合，得到四个由立方体展开引导的融合特征；采用一个加权表征内融合单元实现四个立方体展开引导的融合特征的表征内融合；加权表征内融合单元将原始的四个立方体展开特征拼接，通过SE模块，得到一个权重向量α ∈r4C×1×1；将权重向量进一步切割成四个子向量αi∈RC×1×1，经过归一化后得到自适应权重ωi；得到相应的自适应权重后，则进行如下所述表征内融合：将门控表征间融合单元得到的四个由立方体展开引导的融合特征Fi∈RC×H×W，以自适应地加权方式进行融合，并结果与等矩形投影特征FE相加，得到本模块最终的融合特征Ff：式中， ωi是由加权表征内融合单元得到的相应权重，表示逐元素加法，表示在整个特征平面上的逐元素乘法。 8.如权利要求1所述的一种基于多投影表征的全景图像显著性目标检测方法，其特征在于，所述过滤与细化模块步进式地实现特征的筛选和融合，使其既有助于抑制两类冗余信息，又能保留与显著性目标相关的细节信息，具体包括：以第k个过滤与细化模块为例， k≥2，过滤与细化模块存在两种特征输入：第一种是来自前一个解码层的解码器特征另一种是来自相应编码层的五个不同投影表征特征的编码器特征最后一个过滤与细化模块没有来自前一个解码层的解码器特征，在此处被替换为动态加权融合模块的输出；权　利　要　求　书 2/3 页 3 CN 115424100 A 3

专利 一种基于多投影表征的全景图像显著性目标检测方法

专利一种基于多投影表征的全景图像显著性目标检测方法