专利基于判别性特征引导的零样本三维模型分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210716713.2 (22)申请日 2022.06.23 (71)申请人北方民族大学地址 750021 宁夏回族自治区银川市西夏区文昌北街204 号 (72)发明人白静　范有福　邵会会　彭斌　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师冯炳辉 (51)Int.Cl. G06V 20/64(2022.01) G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) (54)发明名称基于判别性特征引导的零样本三维模型分类方法 (57)摘要本发明公开了一种基于判别性特征引导的零样本三维模型分类方法，包括： 1)数据输入及初始特征提取，一部分以三维模型数据集的多视图表征为输入，再经过初始视觉特征提取网络得到多视图特征图；另一部分以三维模型的类标签为输入，经过初始语义特征提取网络得到其词向量； 2)将多视图特征图输入到判别性视觉特征提取模块中，得到三维模型最终的判别性视觉特征； 3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征； 4)将判别性视觉特征和伪视觉特征经联合损失模块对两者联合约束，实现语义‑视觉特征的良好对齐，进而缩小语义 ‑视觉域间差异性。本发明针对零样本三维模型分类任务，分析并论证了局部判别性特征对其的重要作用，实现了更好的性能。权利要求书3页说明书8页附图1页 CN 115131781 A 2022.09.30 CN 115131781 A 1.基于判别性特征引导的零样本三维模型分类方法，其特征在于，包括以下步骤： 1)数据输入及初始特征提取，输入分为两部分，一部分以三维模型数据集的多视图表征为输入，然后经过初始视觉特征提取网络得到多视图特征图；另一部分以三维模型的类标签为输入，经过初始语义特征提取网络得到其词向量； 2)将多视图特征图输入到判别性视觉特征提取模块中，得到三维模型最终的判别性视觉特征，即真实视觉特征； 3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征； 4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束，实现语义 ‑视觉特征的良好对齐，进而缩小语义 ‑视觉域间差异性。 2.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法，其特征在于，在步骤1)中，三维模型数据集其中： Γtr为训练集， Γte为测试集， N＝Ntr+Nte为三维模型的总数， Ntr为训练集中三维模型数量， Nte为测试集中三维模型数量； xi表示第i个三维模型， yi∈{1， 2，…， C}为三维模型xi对应的类标签； C＝Ctr+Cte为总体的类别数， Ctr为训练集类别数， Cte为测试集类别数；将三维模型表征为多视图形式，有 Iv， i表示三维模型xi的第v个视图， Nv指的是三维模型的多视图的数量；输入训练集中三维模型以及类标签，表示为训练集中第i个三维模型，为三维模型对应的类标签；首先将三维模型输入初始视觉特征提取网络，提取每一个视图Iv， i的初始视觉特征图为特征图的矩阵表示， h、 w和d分别表示特征图的高、宽和通道数；其中，所述初始视觉特征提取网络采用的是Resnet5 0；将类标签输入通过初始语义特征提取网络得到其词向量表示 n为词向量的维度；其中，所述初始语义特征提取网络采用的是W ord2Vec。 3.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法，其特征在于，在步骤2)中，所述判别性视觉特征提取模块的具体情况如下： a、多视图特征融合：将三维模型Nv张视图的特征图进行通道维度的拼接，得到融合后的特征其过程如下公式(1)：式中，为第i个三维模型经过多视图特征融合后的特征， c oncat为拼接操作，为第 i个三维模型多视图的初始视觉特征图， v为视图数量的取值， d为特征图的通道维度； b、跨视图注意力生成：输入融合后的特征经过M个1 ×1的卷积，完成通道间的信息交互，得到M个跨视图的判别性注意力图，其过程如下公式(2)：式中，表示第i个三维模型的第k个判别性注意力图，为1×1的卷积操作， k为注意力图个数的取值； c、单视图判别性特征生成：为了将得到的M个判别性特征同步到每张视图上，通过引入权　利　要　求　书 1/3 页 2 CN 115131781 A 2双线性注意力池化操作，增强对局部特征的信息交互，以三维模型多视图的初始视觉特征图和三维模型的判别性注意力图进行点乘操作，得到M个判别性特征在Nv张视图上的响应区域其过程如下公式(3)：式中，⊙为点乘操作，为第i个三维模型k个判别性特征在v个视图上的响应区域； d、跨视图判别性特征合成：针对每个判别性特征，进一步综合各视图信息，得到跨视图的判别性特征，首先采用全局平均池化合并空间信息，然后采用最大池化合并通道信息，最后通过拼接得到三维模型第k个跨视图判别性视觉特征其过程如下公式(4)：式中，为第i个三维模型第k个跨视图判别性视觉特征，为拼接操作，为在通道维度上进行最大池化操作，为在空间维度上进行全局平均池化操作， h为特征图空间维度的高， w 为特征图空间维度的宽； e、判别性特征生成：将M个独立的判别性视觉特征进行拼接得到三维模型最终的判别性视觉特征，其过程如下公式(5)：式中， Fi为第i个三维模型最终的判别性视觉特征，即真实视觉特征，为对k维度上的拼接操作。 4.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法，其特征在于，在步骤3)中，所述伪视觉生成模块的具体情况如下： a、关联语义提取：为了支持语义 ‑视觉特征的平滑映射，更好地捕捉对象间的关联语义特征，首先经过由全连接构成的语义描述筛选子模块，获取到与视觉判别性特征对应的关联语义特征Fri，其过程如下公式(6)： Fri＝f1(Wi)＝ δ(ω0Wi+b0) (6) 式中， Fri为第i个三维模型对应的关联语义特征， Wi为第i个三维模型的词向量表示， f1 为单层全连接层构成的语义描述筛选子模块， δ 为ReLU激活函数， ω0为网络权重， b0为偏置； b、伪视觉特征生成：将得到的关联语义特征Fri输入到生成器中生成伪视觉特征分布该生成器为由三层的全连接网络构成，其过程如下公式(7)：式中，为第i个三维模型的伪视觉特征， f2为由三层的全连接网络构成的伪视觉生成器， ω1、 ω2、 ω3分别为每一层的网络权重， b1、 b2、 b3分别为每一层的偏置。 5.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法，其特征在于，在步骤4)中，所述联合损失模块包含语义判别损失和内容感知损失，其具体情况如下： a、语义判别损失：语义判别损失旨在推进三维模型伪视觉特征和真实视觉特征在全局认知上的一致性，将生成的伪视觉特征和真实视觉特征Fi输入判别器进行0/1判别，使得权　利　要　求　书 2/3 页 3 CN 115131781 A 3

专利 基于判别性特征引导的零样本三维模型分类方法

专利基于判别性特征引导的零样本三维模型分类方法