(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210671530.3
(22)申请日 2022.06.15
(71)申请人 上海理工大 学
地址 200093 上海市杨 浦区军工路516号
(72)发明人 陈罡 王文举 周浩然 王晓琳
(74)专利代理 机构 上海德昭知识产权代理有限
公司 31204
专利代理师 卢泓宇
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
基于多视图Pooling Transformer的三维对
象识别方法
(57)摘要
本 发 明 提 供 一 种 基 于 多 视 图
PoolingTran sformer的三维对象识别方法, 首先
基于待测对象的多视图的信息熵构造得到了最
佳视图集, 从而减少了多视图的冗余性, 提高了
网络模型进行识别的精准度。 其次, 采用ResNet
网络和Embedding网络一次性对所有视图进行特
征信息提取, 获取了最佳视图集的多视图低级局
部特征token序列, 从而使之能够输入到
PoolingTransformer完成并行化训练。 然后, 通
过PoolingTransformer将所述多视图低级局部
特征token序列的局部视图信息token序列, 实现
分别从全局和局部聚合多视图低级局部特征
token序列为一个紧凑而单一的3D全局描述符。
最后, 由分类器识别该3D 全局描述符得到待测对
象的识别结果。 该方法能够高效、 准确地捕获多
个视图之间的相关特征信息, 极大地提高了网络
模型的识别精度和训练效率。
权利要求书3页 说明书17页 附图4页
CN 114972794 A
2022.08.30
CN 114972794 A
1.一种基于多视图Pooling Transformer的三维对象识别方法, 其特征在于, 包括以下
步骤:
步骤S1, 构建Multi ‑view Pooling Transformer网络模型, 该模型具有最佳视图集获
取模块、 低级局部特征token序列生成模块、 基于Pooling Transformer的全局描述符生成
模块以及分类 器;
步骤S2, 将待测对 象输入至所述Multi ‑view Pooling Transformer网络模型, 通过所
述最佳视图集获取模块获取对应的多视图, 并根据所述多视图的信息熵构建最佳视图集;
步骤S3, 由所述低级局部特征token序列生成模块提取所述最佳视图集的多视图低级
局部特征, 并基于该多视图低级局部特 征生成对应的多视图低级局部特 征token序列;
步骤S4, 所述全局描述符生成模块将所述多视图低级局部特征token序列的局部视图
信息token序列, 与其全局特 征信息序列聚合 生成所述待测对象的3D全局描述符;
步骤S5, 所述分类器将所述3D全局描述符作为输入进行三维对象识别, 从而得到所述
待测对象的识别结果。
2.根据权利要求1所述的基于多视图Pooling Transformer的三维对象识别方法, 其特
征在于:
其中, 所述 步骤S2包括以下子步骤:
步骤S2‑1, 对所述待测对象按照正十二 面体视点获取对应的多个2D视图;
步骤S2‑2, 计算每 个所述2D视图的信息熵, 并按信息熵值的高低进行排序;
步骤S2‑3, 选取信息熵排名前n 位的视图作为所述 最佳视图集, 从而减少冗余的视图。
3.根据权利要求2所述的基于多视图Pooling Transformer的三维对象识别方法, 其特
征在于:
其中, 所述信息熵的计算公式为:
Pa,b=f(a,b)/W ·H
式中, Hi表示第i个视图vi的信息熵, (a,b)为一个二元组, a表示某个滑动窗 口内中心的
灰度值, b为该窗口内除开中心像素的灰度均值; Pa,b表示(a,b)在整个视图vi中出现的概
率; f(a,b)表示(a,b)这个二元组在整个视图vi中出现的次数; W、 H表示视图vi的宽高。
4.根据权利要求1所述的基于多视图Pooling Transformer的三维对象识别方法, 其特
征在于:
其中, 所述低级局部特 征token序列生成模块具有ResNet网络和Embed ding网络,
所述步骤S3包括以下子步骤:
步骤S3‑1, 由所述ResNet网络提取 所述最佳视图集的多视图低级局部特 征;
步骤S3‑2, 基于所述Embedding网络生成所述多视图低级局部特征的局部视图token序
列:
[x1,...xi...,xn]=Emb{Res[v1,...vi...,vn]}
式中, [vi,…vi…,vn]是所述最佳视图集, vi表示其中的一个视图;
步骤S3‑3, 将一个初始化class tokenxclass添加到所述局部视图token序列的首部, 并
将它们分别与位置编码Epos进行拼接, 最终生成所述多视图低级局部特 征token序列:权 利 要 求 书 1/3 页
2
CN 114972794 A
2式中, X0是多视图低级局部特征token序列, xclass是一个与局部视图token序列的维度
相匹配的随机初始化 值, Epos用来保存来自不同视点xi的位置信息 。
5.根据权利要求4所述的基于多视图Pooling Transformer的三维对象识别方法, 其特
征在于:
其中, 所述全局描述符生成模块包括基于Transformer的全局特征信息生成子模块和
基于Pooling的局部 视图信息to ken序列聚合子模块,
所述基于Transformer的全局特征信息生成子模块具有Layer Normalization网络、
Multi‑Head Multi‑View Attention网络、 多层感知机网络以及残差连接 。
6.根据权利要求5所述的基于多视图Pooling Transformer的三维对象识别方法, 其特
征在于:
其中, 所述 步骤S4包括以下子步骤:
步骤S4‑1, 所述LayerNormalization网络对所述多视图低级局部特征token序列进行
归一化处理:
步骤S4‑2, 所述Multi ‑Head Multi‑View Attention网络将 归一化后的token序列
通
过线性变换完成M HMVA计算, 生成to ken序列XMHMVA;
步骤S4‑3, 对token序列XMHMVA使用残差连接得到token序列X1从而避免梯度消失, 再将X1
输入至所述 Layer Normalization网络进行归一 化处理后输入至所述多层感知机网络;
步骤S4‑4, 将多层感知机网络的输出结果与X1进行残差连接, 得到所述局部视图信息
token序列:
其中, 所述局部视图信息token序列由全局class
token
和局部视图信息token序列
组成, 其中全局c lass token
保存了
局部视图token序列的全局特 征信息, 即
步骤S4‑5, 所述基于Poolin g的局部视图信息token序列聚合子模块将所述局部视图信
息token序列
进行池化处理得到单个最佳局部视图信息token, 再将该最佳局
部视图信息t oken与全局class token
进行拼接聚合, 最 终生成对应的3D全局描述符Y:
7.根据权利要求6所述的基于多视图Pooling Transformer的三维对象识别方法, 其特
征在于:
其中, 所述Multi ‑Head Multi‑View Attention网络由多个Multi ‑View Attention组
成,
所述MHMVA计算是进行多个并行化的Multi ‑View Attention计算:
步骤S4‑2‑1, 将经过归一化处理的
先通过线性变换生成Query、 K ey、 Value三个向量:权 利 要 求 书 2/3 页
3
CN 114972794 A
3
专利 基于多视图Pooling Transformer的三维对象识别方法
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:43:19上传分享