专利 一种基于RAFT的自监督深度估计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210660035.2 (22)申请日 2022.06.10 (71)申请人上海人工智能创新中心地址 200232 上海市徐汇区云锦路701号 37、 38层 (72)发明人耿向威　司马崇昊　李弘扬　陈立　张菘淳　乔宇　 (74)专利代理机构上海智晟知识产权代理事务所(特殊普通合伙) 31313 专利代理师李镝的 (51)Int.Cl. G06T 7/73(2017.01) G06T 7/593(2017.01) G06T 5/50(2006.01) (54)发明名称一种基于RAFT的自监督深度估计方法 (57)摘要本发明涉及计算机视觉技术领域，提出一种基于RAFT的自监督深度估计方法，包括下列步骤：估计场景中的深度信息以及相机自运动信息，并且利用所述深度信息以及所述相机自运动信息进行自监督训练；以及基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练。权利要求书2页说明书6页附图2页 CN 114972517 A 2022.08.30 CN 114972517 A 1.一种基于RAFT的自监督深度估计方法，其特征在于，包括下列步骤：估计场景中的深度信息以及相机自运动信息，并且利用所述深度信息以及所述相机自运动信息进行自监督训练；以及基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练。 2.根据权利要求1所述的基于RAFT的自监督深度估计方法，其特征在于，估计场景中的深度信息包括下列步骤：将场景中的第一图像和第二图像输入多尺度的FPN网络以提取所述第一和第二图像的多尺度特征，其中所述第一和第二图像是连续的图片帧；将所述第一和第二图像输入相对位姿估计网络以预测所述第一图像与所述第二图像之间的相对位姿；以及根据所述多尺度特征，在深度方向上划分深度区间，并以迭代的方式由粗到细进行区间划分进行深度估计以及所述场景中的对应位姿信息。 3.根据权利要求2所述的基于RAFT的自监督深度估计方法，其特征在于，根据所述多尺度特征以及所述相对位姿估计场景中的深度信息包括下列步骤：初始化场景中的深度最小值与深度最大值；在所述深度最小值与深度最大值之间等间距地划N等分以便在相机坐标系下等间隔地构造多个与相机平面垂直的垂直平面；根据所述多尺度特征、所述相对位姿以及所述多个垂直平面的深度，在所述垂直平面上进行特征代价匹配以构造第一代价体；将所述第一代价体通过编码器 ‑解码器架构以获取概率体；将所述概率体在深度维度上的最小概率值作为当前像素上的深度值候选；以及在深度维度上计算深度的期望以估计场景中的深度信息。 4.根据权利要求3所述的基于RAFT的自监督深度估计方法，其特征在于，还包括下列步骤：在低分辨率特征图下，对多个所述垂直平面前后的带状区域内进行等间隔的深度曲面采样；在所述深度曲面上进行特征代价匹配以生成低分辨率深度信息；根据所述低分辨率特征生成的深度信息结合高分辨率特征进行高精度的细分代价匹配以生成高分辨率深度信息。 5.根据权利要求3所述的RAFT的自监督深度估计方法，其特征在于，利用所述深度信息以及所述相机自运动信息进行自监督训练包括：确定相机的内参数；根据所述相对位姿、所述深度信息、所述相机的内参数进行视图的单应变换以构造场景的第一重投影图像；以及将所述第一重投影图像与场景的原图像的光度一致性作为优化目标进行第一自监督训练。 6.根据权利要求5所述的基于RAFT的自监督深度估计方法，其特征在于，基于RAFT估计场景中的三维运动场信息包括下列步骤：权　利　要　求　书 1/2 页 2 CN 114972517 A 2将所述第一图像与所述第二图像在同一坐标系下进行投影，并且将投影时未对齐的区域确定为动态物体区域；基于所述第一和第二图像以及所述深度信息将所述第一和第二图像拼接为第三图像；利用第一和第二骨干特征提取网络提取所述第三图像与所述原图像之间的第一和第二特征图；对所述第一和第二特征图进行点积计算像素之间的相似度以构造第二代价体：将所述第二代价体存储为四维的相似度查找表；将所述三维运动场初始为全零矩阵；以及将所述动态物体区域内的于每个像素利用所述相似度查找表查找最为相似的点并且进行循环迭代更新以获取三维运动场信息。 7.根据权利要求6所述的基于RAFT的自监督深度估计方法，其特征在于，进行循环迭代更新以获取三维运动场信息包括利用GRU模块以及卷积操作，计算出相对于上次迭代过程输出运动场的残差运动场，然后与上次迭代过程输出运动场进行相加用作补偿。 8.根据权利要求7所述的基于RAFT的自监督深度估计方法，其特征在于，利用所述三维运动场信息进行自监督训练包括下列步骤：将所述三维运动场张量与所述相机自运动信息进行叠加并且逐像素构造场景的第二重投影图像；以及将所述第二重投影图像与场景的原图像的光度一致性作为优化目标进行第二自监督训练。 9.根据权利要求8所述的基于RAFT的自监督深度估计方法，其特征在于，进行所述第一阶段自监督训练，再进行所述第二阶段自监督训练，并且在所述第一和第二自监督训练的过程后，对两个网络进行联合训练以进行参数微调更新。权　利　要　求　书 2/2 页 3 CN 114972517 A 3

专利 一种基于RAFT的自监督深度估计方法

专利一种基于RAFT的自监督深度估计方法