专利一种基于多视图分组感知注意力的三维物体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210350763.3 (22)申请日 2022.04.02 (71)申请人河北工业大学地址 300130 天津市红桥区丁字沽光荣道8 号河北工业大学东院330# (72)发明人张满囤　权子洋　师子奇　申冲　刘川　郭竹砚　史京珊　 (74)专利代理机构天津翰林知识产权代理事务所(普通合伙) 12210 专利代理师王瑞 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多视图分组感知注意力的三维物体识别方法 (57)摘要本发明公开了一种基于多视图分组感知注意力的三维物体识别方法。首先获取不同三维物体模型不同拍摄角度的多张二维视图，利用卷积神经网络对多个视图进行处理提取视图特征向量，根据相似度分数将视图特征向量进行分组，再分别计算每个视图特征向量在其组内的权重系数，再使用加权求和的方式将一个分组内的所有视图特征向量融合为一个组级融合视图特征向量；最后经过循环神经网络挖掘组级融合视图特征向量之间的相关性，通过多感知组注意力将不同贡献的组级关联视图特征向量自适应地融合为一个三维物体描述符用于物体的分类。本发明结合了卷积神经网络、循环神经网络和注意力算法的优势，显著提高了三维物体识别的精确度和效率。权利要求书3页说明书7页附图4页 CN 114708469 A 2022.07.05 CN 114708469 A 1.一种基于多视图分组感知注意力的三维物体识别方法，其特征在于，该方法包括以下步骤：步骤1、获取三维物体数据集；数据集包括若干类三维物体模型，每一类包括若干个三维物体模型；步骤2、获取三维物体模型的二维视图：在三维物体模型的周向沿水平面均匀设置N个虚拟相机，对数据集中的每个三维物体模型进行拍摄，并将三维物体模型置于其视图的中心位置处，得到每个三维物体模型的各自的N张二维视图；步骤3、卷积神经网络提取二维视图特征：针对某一个三维物体模型，将步骤2得到的其 N张二维视图依次输入到卷积神经网络中进行视图特征提取，得到该三维物体模型的N个视图特征向量；步骤4、视图分组：计算步骤3提取的N个视图特征向量之间的相似度分数，再根据相似度分数将N个视图特征向量进行分组，将相似度高的视图特征向量分为一组，共分为M组；步骤5、视图分组融合：每一个分组分别计算每个视图特征向量在其组内的权重系数，再使用加权求和的方式将一个分组内的所有视图特征向量融合为一个组级融合视图特征向量，共得到 M个组级融合视图特征向量；步骤6、将步骤5得到的M个组级融合视图特征向量输入到Bi ‑LSTM循环神经网络中， Bi ‑ LSTM循环神经网络将组级融合视图特征向量视为一种时间序列，得到这M个组级融合视图特征向量之间的相关性；再根据相关性，输出M个组级关联视图特征向量；步骤7、使用多感知组注意力将步骤6得到的M个组级关联视图特征向量聚合为一个三维物体描述符；步骤8、三维物体识别：将步骤7得到的三维物体描述符送入一个全连接层中，其神经元个数与数据集中的三维物体模型的种类数相同，然后生成一组二进制数据；该组二进制数据中数字为1的位置表示该三维物体模型的识别结果。 2.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法，其特征在于，步骤1中，数据集采用普林斯顿大学公开的ModelNet40或ModelNet10数据集； ModelNet40数据集包含40种通用物体种类， Model Net10数据集包含10种通用物体种类。 3.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法，其特征在于，步骤2具体是： 1)三维物体模型按照垂直线摆放在水平面上，按照人为设置的横向间隔在三维物体模型的周向沿水平面均匀设置N个虚拟相机来获得N个视图；拍摄时，虚拟相机的高度高于三维物体模型的中心，且其镜头与三维物体模型的中心的连线和水平面的夹角为30 °，其镜头指向三维物体模型的中心； 2)对N个视图，均通过裁剪将三维物体模型置于其视图的中心位置处，获取N张二维视图。 4.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法，其特征在于，步骤3中，所述卷积神经网络采用改进后的ResNet ‑18网络，其具体结构为：第一层为卷积层，设置Relu为激活函数；第二层由顺序连接的一个最大池化层和两个连续的卷积块组成，先进行最大池化层运算，再对池化结果进行卷积操作；权　利　要　求　书 1/3 页 2 CN 114708469 A 2第三层由顺序连接的一个全局最大池化层、一个全局平均池化层和一个卷积层组成；第四层由两个连续且规格相同的卷积块组成；每个卷积块均包括两个相同的卷积层；第五层由两个连续且规格相同的卷积块组成；每个卷积块均包括两个相同的卷积层；第六层由两个连续且规格相同的卷积块组成；每个卷积块均包括两个相同的卷积层；第七层为BN层，将第六层的输出进行批量归一化处理。 5.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法，其特征在于，步骤4中，根据步骤3提取的N个视图特征向量，构建并计算生成一个相似度分数矩阵A (N， N)；同时初始化吸引度矩阵T(N， N)和归属度矩阵G(N， N)，用来计算视图分组的信息，矩阵T(N， N)和G(N， N)在不断的迭代过程中更新数值；迭代的过程是更新矩阵T(N， N)和G(N， N)，这两个矩阵的初始化值均为0，每次更新后根据吸引度矩阵T(N， N)中的数值tij与归属度矩阵G(N， N)中的数值gij之和确定当前视图特征向量中的分组中心特征向量；如果i＝j，则说明视图特征向量i是自己所在分组的分组中心特征向量；如果i≠j，则说明视图特征向量i属于视图特征向量j的分组；迭代停止的条件是 N个视图特征向量经过连续的多次迭代后分类不再变化或者超过了最大迭代次数。 6.根据权利要求5所述的基于多视图分组感知注意力的三维物体识别方法，其特征在于，步骤4中，相似度分数矩阵A(N， N)中的数值aij是视图特征向量i与视图特征向量j之间的相似度分数，通过视图特征向量i与视图特征向量j之间的特征序列的欧式距离计算得出；欧式距离数值越小，则相似度分数越大，相似度越高。 7.根据权利要求5所述的基于多视图分组感知注意力的三维物体识别方法，其特征在于，步骤4中，吸引度矩阵T(N， N)中的数值tij用来描述视图特征向量j适合作为视图特征向量i的分组中心的程度：式(1)中， aij是视图特征向量i与视图特征向量j之间的相似度分数， gij′表示除视图特征向量j之外其他视图特征向量对视图特征向量i的归属度，初始为0； aij′表示除视图特征向量j之外其他视图特征向量对视图特征向量i的相似度；归属度矩阵G(N， N)中的数值gij用来描述视图特征向量i选择视图特征向量j作为其中心点的适合程度：式(2)中， tjj表示视图特征向量j作为分组中心的适合程度； ai′j表示视图特征向量j作为除视图特征向量i以外其它视图特征向量的分组中心的吸引度； ti′j表示视图特征向量j 作为除视图特征向量i以外其它视图特征向量的分组中心的相似度分数。 8.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法，其特征在于，步骤5具体是：将N个视图特征向量按照分组分别输入进第一个全连接层，然后经过Relu 函数后输入第二个全连接层，最后输入进Softmax函数，为每个视图特征向量生成一个(0, 1)之间的权重系数，再将权重系数和与其对应的视图特征向量相乘，再将所有的相乘结果权　利　要　求　书 2/3 页 3 CN 114708469 A 3

专利 一种基于多视图分组感知注意力的三维物体识别方法

专利一种基于多视图分组感知注意力的三维物体识别方法