全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210350763.3 (22)申请日 2022.04.02 (71)申请人 河北工业大 学 地址 300130 天津市红桥区丁字沽光 荣道8 号河北工业大 学东院330# (72)发明人 张满囤 权子洋 师子奇 申冲  刘川 郭竹砚 史京珊  (74)专利代理 机构 天津翰林知识产权代理事务 所(普通合伙) 12210 专利代理师 王瑞 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多视图分组感知注意力的三维物 体识别方法 (57)摘要 本发明公开了一种基于多视图分组感知注 意力的三维物体识别方法。 首先获取不同三维物 体模型不同拍摄角度的多张二维视图, 利用卷积 神经网络对多个视图进行处理提取视图特征向 量, 根据相似度分数将视图特征向量进行分组, 再分别计算每个视图特征向量在其组内的权重 系数, 再使用加权求和的方式将一个 分组内的所 有视图特征向量融合为一个组级融合视图特征 向量; 最后经过循环神经网络挖掘组级融合视图 特征向量之间的相关性, 通过多感知组注意力将 不同贡献的组级关联视图特征向量自适应地融 合为一个三维物 体描述符用于物体的分类。 本发 明结合了 卷积神经网络、 循环神经网络和注意力 算法的优势, 显著提高了三维物体识别的精确度 和效率。 权利要求书3页 说明书7页 附图4页 CN 114708469 A 2022.07.05 CN 114708469 A 1.一种基于多视图分组感知注意力的三维物体识别方法, 其特征在于, 该方法包括以 下步骤: 步骤1、 获取三维物体数据集; 数据集包括若干类三维物体模型, 每一类包括若干个三 维物体模型; 步骤2、 获取三维物体模型的二维视图: 在三维物体模型的周向沿水平面均匀设置N个 虚拟相机, 对数据集中的每个三维物体模型进行拍摄, 并将三维物体模型置于其视图的中 心位置处, 得到每 个三维物体模型的各自的N张二维视图; 步骤3、 卷积神经网络提取二维视图特征: 针对某一个三维物体模型, 将步骤2得到的其 N张二维视图依次输入到卷积神经网络中进 行视图特征提取, 得到该三 维物体模 型的N个视 图特征向量; 步骤4、 视图分组: 计算步骤3提取的N个视图特征向量之间的相似度分数, 再根据相似 度分数将N个视图特 征向量进行分组, 将相似度高的视图特 征向量分为 一组, 共分为M组; 步骤5、 视图分组融合: 每一个分组分别计算每个视图特征向量在其组内的权重系数, 再使用加权求和的方式将一个分组内的所有视图特征向量融合为一个组级融合视图特征 向量, 共得到 M个组级融合视图特 征向量; 步骤6、 将步骤5得到的M个组级融合视图特征向量输入到Bi ‑LSTM循环神经网络中, Bi ‑ LSTM循环神经网络将组级融合视图特征向量视为一种时间序列, 得到这M个组级融合视图 特征向量之间的相关性; 再根据相关性, 输出M个组级关联视图特 征向量; 步骤7、 使用多感知组注意力将步骤6得到的M个组级关联视图特征向量聚合为一个三 维物体描述符; 步骤8、 三维物体识别: 将步骤7得到的三维物体描述符送入一个全连接层中, 其神经元 个数与数据集中的三维物体模型 的种类数相同, 然后生成一组二进制数据; 该组二进制数 据中数字为1的位置表示该三维物体模型的识别结果。 2.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法, 其特征在 于, 步骤1中, 数据集采用普林斯顿大学公开的ModelNet40或ModelNet10数据集; ModelNet40数据集包 含40种通用物体种类, Model Net10数据集包 含10种通用物体种类。 3.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法, 其特征在 于, 步骤2具体是: 1)三维物体模型按照垂直线摆放在水平面上, 按照人为设置的横向间隔在三维物体模 型的周向沿水平面均匀设置N个虚拟相 机来获得N个视图; 拍摄时, 虚拟相机的高度高于三 维物体模型的中心, 且其镜头与三 维物体模型的中心的连线和水平 面的夹角为30 °, 其镜头 指向三维物体模型的中心; 2)对N个视图, 均通过裁剪将三维物体模型置于其视图的中心位置处, 获取N张二维视 图。 4.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法, 其特征在 于, 步骤3中, 所述卷积神经网络采用改进后的ResNet ‑18网络, 其具体结构为: 第一层为卷积层, 设置Relu为激活函数; 第二层由顺序连接的一个最大池化层和两个连续的卷积块组成, 先进行最大池化层运 算, 再对池化结果进行 卷积操作;权 利 要 求 书 1/3 页 2 CN 114708469 A 2第三层由顺序连接的一个全局最大池化层、 一个全局平均池化层和一个卷积层组成; 第四层由两个连续且规格相同的卷积块组成; 每 个卷积块均包括两个相同的卷积层; 第五层由两个连续且规格相同的卷积块组成; 每 个卷积块均包括两个相同的卷积层; 第六层由两个连续且规格相同的卷积块组成; 每 个卷积块均包括两个相同的卷积层; 第七层为BN层, 将第六层的输出进行批量归一 化处理。 5.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法, 其特征在 于, 步骤4中, 根据步骤3提取的N个视图特征向量, 构建并计算生成一个相似度分数矩 阵A (N, N); 同时初始化吸引度矩阵T(N, N)和归属度矩阵G(N, N), 用来计算视图分组的信息, 矩 阵T(N, N)和G(N, N)在不断的迭代过程中更新数值; 迭代的过程是更新矩阵T(N, N)和G(N, N), 这两个矩阵的初始化值均为0, 每次更新后根 据吸引度矩阵T(N, N)中的数值tij与归属度矩阵G(N, N)中的数值gij之和确定当前视图特征 向量中的分组中心特征向量; 如果i=j, 则说明视图特征向量i是自己所在分组的分组中心 特征向量; 如果i≠j, 则说明视图特征向量i属于视图特征向量j的分组; 迭代停止的条件 是 N个视图特 征向量经 过连续的多次迭代后分类不再变化或者超过了最大迭代次数。 6.根据权利要求5所述的基于多视图分组感知注意力的三维物体识别方法, 其特征在 于, 步骤4中, 相似度分数矩阵A(N, N)中的数值aij是视图特征向量i与视图特征向量j之间的 相似度分数, 通过视图特征向量i与视图特征向量j之间的特征序列的欧式距离计算得出; 欧式距离数值越小, 则相似度分数越大, 相似度越高。 7.根据权利要求5所述的基于多视图分组感知注意力的三维物体识别方法, 其特征在 于, 步骤4中, 吸引度矩阵T(N, N)中的数值tij用来描述视图特征向量j适合作为视图特征向 量i的分组中心的程度: 式(1)中, aij是视图特征向量i与视图特征向量j之间的相似度分数, gij′表示除视图特 征向量j之外其他视图特征向量对视图特征向量i的归属度, 初始为0; aij′表示除视图特征 向量j之外其 他视图特 征向量对视图特 征向量i的相似度; 归属度矩阵G(N, N)中的数值gij用来描述视图特征向量i选择视图特征向量j作为其中 心点的适 合程度: 式(2)中, tjj表示视图特征向量j作为分组中心的适合程度; ai′j表示视图特征向量j作 为除视图特征向量i以外其它视图特征向量的分组中心的吸引度; ti′j表示视图特征向量j 作为除视图特 征向量i以外其它视图特 征向量的分组中心的相似度分数。 8.根据权利要求1所述的基于多视图分组感知注意力的三维物体识别方法, 其特征在 于, 步骤5具体是: 将N个视图特征向量按照分组分别输入进第一个全连接层, 然后经过Relu 函数后输入第二个全连接层, 最后输入进Softmax函数, 为每个视图特征向量生成一个(0, 1)之间的权重系数, 再将权重系数和与其对应的视图特征向量相乘, 再将所有的相乘结果权 利 要 求 书 2/3 页 3 CN 114708469 A 3

.PDF文档 专利 一种基于多视图分组感知注意力的三维物体识别方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多视图分组感知注意力的三维物体识别方法 第 1 页 专利 一种基于多视图分组感知注意力的三维物体识别方法 第 2 页 专利 一种基于多视图分组感知注意力的三维物体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:33:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。