专利物体位姿估计方法、装置、介质和设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211067454.1 (22)申请日 2022.09.01 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林荫北街13号信息大厦802室 (72)发明人黎意枫　李广林　孔涛　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师温易娜 (51)Int.Cl. G06T 7/73(2017.01) G06T 7/12(2017.01) G06V 10/75(2022.01) (54)发明名称物体位姿估计方法、装置、介质和设备 (57)摘要本公开涉及一种物体位姿估计方法、装置、介质和设备，该方法包括：获取目标物体的位置点云，将所述位置点云分割成具有不同语义标签的多个语义点，该多个语义点用于表示所述目标物体的观测形状；生成一编码向量并选择与所述目标物体的类别对应的生成模型，所述编码向量用于表征对物体形状的编码；基于所述编码向量，通过所述生成模型生成与所述观测形状匹配、且由具有不同语义标签的多个语义单元组成的生成形状；根据所述观测形状对应的各语义点的语义标签，与所述生成形状对应的各语义单元的语义标签之间的对应关系，确定所述目标物体的位姿。本公开能够简单准确地估计物体的位姿，且能够用于处理具有较大类内形状差异的不同物体实例的位姿估计。权利要求书3页说明书15页附图3页 CN 115482279 A 2022.12.16 CN 115482279 A 1.一种物体位姿估计方法，其特征在于，包括：获取目标物体的位置点云，将所述位置点云分割成具有不同语义标签的多个语义点，所述多个语义点用于表示所述目标物体的观测形状；生成一编码向量并选择与所述目标物体的类别对应的生成模型，所述编码向量用于表征对物体形状的编码；基于所述编码向量，通过所述生成模型生成与所述观测形状匹配、且由具有不同语义标签的多个语义单元组成的生成形状；根据所述观测形状对应的各语义点的语义标签，与所述生成形状对应的各语义单元的语义标签之间的对应关系，确定所述目标物体的位姿。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于所述观测形状对应的各语义点，提取对刚体相似变换不变的形状描述子；所述基于所述编码向量，通过所述生成模型生成与所述观测形状匹配、且由具有不同语义标签的多个语义单元组成的生成形状，包括：将所述编码向量输入所述生成模型，以基于所述编码向量生成由多个语义单元组成的生成形状，所述多个语义单元分别具有不同的语义标签；基于所述生成形状对应的各语义单元，提取对刚体相似变换不变的形状描述子；基于所述观测形状与所述生成形状分别对应的形状描述子之间的相似度，优化所述编码向量；基于优化后的编码向量，返回执行所述将所述编码向量输入所述生成模型的步骤；当确定满足优化停止条件时，确定最终的生成形状，作为与所述观测形状匹配的生成形状。 3.根据权利要求2所述的方法，其特征在于，所述形状描述子的表达式为： vij＝ci‑cj；其中， f表示形状描述子， ci、 cj、 ck、 co分别为点集C中的任意四点的位置坐标，表示拼接，点集C由所述观测形状对应的所述多个语义点组成，或者由所述生成形状对应的所述多个语义单元的中心点组成。 4.根据权利要求2或3所述的方法，其特征在于，所述基于所述观测形状与所述生成形状分别对应的形状描述子之间的相似度，优化所述编码向量，包括：将所述观测形状与所述生成形状分别对应的形状描述子作差，得到误差向量；计算所述误差向量的模，作为所述观测形状与所述生成形状的相似度误差；基于所述相似度误差，通过梯度下降优化所述编码向量。 5.根据权利要求1所述的方法，其特征在于，所述根据所述观测形状对应的各语义点的语义标签，与所述生成形状对应的各语义单元的语义标签之间的对应关系，确定所述目标权　利　要　求　书 1/3 页 2 CN 115482279 A 2物体的位姿，包括：通过如下函数，求解令所述函数取得最小值的位姿[s,R,t]，作为所述目标物体的位姿：其中， s表示缩放因子， R表示旋转因子， t表示平移因子， Ψ表示由所述观测形状对应的所述多个语义点中的语义标签组成的标签集合， Nc表示标签集合Ψ中的语义标签的数量， l 表示标签集合Ψ中的一语义标签，表示在所述观测形状对应的所述多个语义点中，语义标签l所对应的语义点的位置坐标，表示在所述生成形状对应的所述多个语义单元中，语义标签l所对应的语义单元的中心点的位置坐标。 6.根据权利要求2所述的方法，其特征在于，所述生成模型包括第一解码器和第二解码器，所述将所述编码向量输入所述生成模型，包括：将所述编码向量分别输入所述第一解码器和所述第二解码器，获得所述第一解码器基于所述编码向量生成的所述生成形状，和所述第二解码器基于所述编码向量生成的所述目标物体对应的在标准坐标系下的三维物体模型；所述方法还包括：当确定满足优化停止条件时，确定最终的三维物体模型；基于所述目标物体的位姿，将最终的三维物体模型从所述标准坐标系转换到世界坐标系下；基于所述目标物体在世界坐标系下的三维物体模型，进行三维场景重建。 7.根据权利要求1所述的方法，其特征在于，所述获取目标物体的位置点云，包括：获取场景图像和对应的深度图像；对所述场景图像进行实例分割，获得所述场景图像中目标物体的位置框和类别；从深度图像中提取对应位置框的深度信息，根据相机内参将所述深度信息投影到三维空间中，得到目标物体的位置点云。 8.根据权利要求7所述的方法，其特征在于，所述将所述位置点云分割成具有不同语义标签的多个语义点，包括：确定所述位置点云中每个点对应的语义标签；将具有相同语义标签的多个点聚类为一个语义点，以得到具有不同语义标签的所述多个语义点。 9.一种物体位姿估计装置，其特征在于，包括：语义点确定模块，用于获取目标物体的位置点云，将所述位置点云分割成具有不同语义标签的多个语义点，所述多个语义点用于表示所述目标物体的观测形状；形状编码模块，用于生成一编码向量并选择与所述目标物体的类别对应的生成模型，所述编码向量用于表征对物体形状的编码；形状生成模块，用于基于所述编码向量，通过所述生成模型生成与所述观测形状匹配、且由具有不同语义标签的多个语义单元组成的生成形状；权　利　要　求　书 2/3 页 3 CN 115482279 A 3

专利 物体位姿估计方法、装置、介质和设备

专利物体位姿估计方法、装置、介质和设备