全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211024246.3 (22)申请日 2022.08.24 (71)申请人 杭州云栖智慧视通科技有限公司 地址 310000 浙江省杭州市西湖区转塘科 技经济区块16号2幢401室 (72)发明人 易珂 刘静 李冠华  (74)专利代理 机构 杭州信与义专利代理有限公 司 33450 专利代理师 马育妙 (51)Int.Cl. G06T 17/00(2006.01) (54)发明名称 基于投影损失约束的单帧图像3D人体姿态 估计及重建方法 (57)摘要 本发明公开了一种基于投影损失约束的单 帧图像3D人体姿态估计及重建方法, 步骤包括: S1, 利用2D姿态估计模型对单目相机采集的单帧 图像进行2D人体关键点和2D人体轮廓识别, 得到 2D人体关键点K和2D人体轮廓图S; S2, 以2D人体 关键点K和2D人体轮廓图S为SMPL参数估计模型 的输入, 推理得到形体尺寸Shape参数β、 姿态 Pose参数θ; S3, 通过β、 θ驱动SMPL模型重建3D 人体。 本发明在3D人体重建中, 考虑了关键点投 影损失、 人体轮廓投影损失、 顶点投影损失、 关节 弯曲的先验惩罚, 减少了重建的3D人体的扭曲现 象。 权利要求书4页 说明书11页 附图5页 CN 115393512 A 2022.11.25 CN 115393512 A 1.一种基于投影损 失约束的单帧图像3D人体姿态估计及重建方法, 其特征在于, 步骤 包括: S1, 利用2D姿态估计模型对单目相机采集的单帧图像进行2D人体关键点和2D人体轮廓 识别, 得到2D人体关键点K和2D人体 轮廓图S; S2, 以所述2D人体关键点K和所述2D人体轮廓图S为SMPL参数估计模型的输入, 推理得 到形体尺寸Shape参数β 、 姿态Pose参数θ和相机参数T; S3, 通过β、 θ驱动SMPL模型重建3D人体, 并利用所述相机参数T对重建的所述3D人体进 行投影。 2.根据权利要求1所述的基于投影损 失约束的单帧图像3D人体姿态估计及重建方法, 其特征在于, 所述SMPL参数估计模 型包括相互间并行的形体尺 寸Shape估计模块、 姿态Pose 估计模块、 相机Camera估计模块, 所述形体尺寸Shape估计模块包括第一形体尺寸Shape估 计模块和与所述第一形体尺寸Shape估计模块以并行方式连接的第二形体尺寸Shape估计 模块, 所述第一形体尺寸Shape估计模块以所述2D人体轮廓图S为输入, 预测输出中间特征向 量f, f输入所述第二形体尺寸Shape估计模块, 预测输出 所述形体尺寸Shape参数β; 所述姿态Pose估计模块以所述2D人体关键点K为输入, 预测输出 所述姿态Pose参数θ; 所述相机Camera估计模块以所述2D人体关键点坐标K为输入, 预测输出所述相机参数 T。 3.根据权利要求1所述的基于投影损 失约束的单帧图像3D人体姿态估计及重建方法, 其特征在于, 所述SMPL参数估计模 型包括相互间串 行的形体尺 寸Shape估计模块、 姿态Pose 估计模块、 相机Camera估计模块, 所述形体尺寸Shape估计模块包括第一形体尺寸Shape估 计模块和与所述第一形体尺寸Shape估计模块以串行方式连接的第三形体尺寸Shape估计 模块, 所述第一形体尺寸Shape估计模块以所述2D人体轮廓图S为输入, 预测输出中间特征向 量f; 所述姿态Pose估计模块以所述2D人体关键点坐标K为输入, 预测输出所述姿态Pose参 数θ; 所述相机 Camera估计模块以所述2D人体关键点K为输入, 预测输出 所述相机参数T; 所述第三形体尺寸Shap e估计模块以所述中间特征向量f、 所述姿态Pose参数θ、 所述相 机参数T为输入预测输出 所述形体尺寸Shape参数β 。 4.根据权利要求2或3所述的基于投影损 失约束的单帧图像3D人体姿态估计及重建方 法, 其特征在于, 所述姿态Pose估计模块估计所述 参数θ 的方法包括 步骤: A1: 将维度 为2×M的所述2D人体关键点K, M表示人体关键点数量, 作为所述姿态Pose估 计模块的输入, 经过所述姿态Pose估计模块中的全 连接层FC1的特征提取输出维度为512的 第一特征; A2: 所述全连接层FC1的输出作为所述姿态Pose估计模块中的卷积层Conv1的输入, 所 述姿态Pose估计模块首先将 512维度的所述第一特征变换为为 1×1×512维度的特征图, 再 输入所述卷积层Conv1中作进一步的特征提取, 输出1 ×1×512维度的第二特征图, 所述卷 积层Conv1的卷积核尺寸1 ×1、 通道数1、 步长为1;权 利 要 求 书 1/4 页 2 CN 115393512 A 2A3: 所述姿态Pose估计模块将所述卷积层Conv1的输出变换为512维, 再输入全连接层 FC2, 所述全连接层FC2输出25 6维的第三特 征, 所述全连接层FC1有25 6个结点; A4: 所述全连接层FC2的输出作为所述姿态Pose估计模块中的全连接层FC3 的输入, 所 述全连接层FC3输出72维的第四特征, 所述全连接层FC3有72个结点, 最终输出的72维即为 预测的所述 参数θ; 所述相机 Camera估计模块估计所述相机参数T的方法步骤 包括: B1: 将维度 为2×M的2D人体关键点K作为所述相机Camera估计模块的输入, 经过所述相 机Camera估计模块中的全 连接层FC4的特征提取后输出512维度的第五特征, 所述全 连接层 FC4有512个结点, M表示人体关键点的数量; B2: 所述全连接层FC4的输出作为所述相机Camera估计模块中的全连接层FC5 的输入, 所述全连接层FC 5输出128维的第六 特征, 所述全连接层FC 5有128个结点; B3: 所述全连接层FC4的输出作为所述相机Camera估计模块中的全连接层FC6 的输入, 所述全连接层FC6输出3维的第七 特征, 所述全连接层FC6有3个结点, 最 终输出的3维特征即 为预测的相机 Camera参数T; 所述第一形体尺寸Shape估计模块估计所述中间特 征向量f的方法步骤 包括: C1: 将尺寸为1 ×256×256的所述2D人体轮廓图S作为所述第一形体尺寸Shape估计模 块中的卷积层Conv2的输入, 所述卷积层Conv2的卷积核尺寸7 ×7、 通道数32、 步长为2、 padding为3, 所述卷积层Co nv2输出维度32 ×128×128的第八特 征图; C2: 所述卷积层Conv2的输出为所述第一形体尺寸Shape估计模块中的卷积层Conv3的 输入, 所述卷积层Conv3的卷积核尺寸3 ×3、 通道数128、 步长为2、 padding为1, 所述卷积层 Conv3输出维度128 ×64×64的第九特 征图; C3: 所述卷积层Conv3的输出为所述第一形体尺寸Shape估计模块中的卷积层Conv4的 输入, 所述卷积层Conv4的卷积核尺寸3 ×3、 通道数512、 步长为2、 padding为1, 所述卷积层 Conv4输出维度为512 ×32×32的第十特 征图; C4: 所述卷积层Conv4的输出为所述第二形体尺寸Shape估计模块中的最大池化层 MaxPool的输入, 所述最大池化层MaxPool的区域大小32 ×32, 输出512 ×1, 经过变换生成 512维的所述中间特 征向量f; 所述形体尺寸Shape估计模块中与所述第一形体尺寸Shape估计模块并行连接的第二 形体尺寸Shape估计模块估计参数β 的方法步骤 包括: M1: 将步骤C4中输出的512维的所述中间特征向量f输入到所述第二形体尺寸Shape估 计模块2中的全连接层FC7, 输出维度为25 6的第十一特 征, 所述全连接层FC7有25 6个结点; M2: 所述全连接层FC7的输出为所述第二形体尺寸Shape估计模块中的全连接层FC8的 输入, 所述全连接层FC8输出维度为10的第十二特征, 所述全 连接层FC8有10个结点, 最 终输 出的10维即为预测得到的参数β 。 所述形体尺寸Shape估计模块中与所述第一形体尺寸Shape估计模块串行连接的第三 形体尺寸Shape估计模块估计参数β 的方法步骤 包括: N1: 将步骤C4中输出的512维的所述中间特征向量f、 所述姿态Pose估计模块中的所述 全连接层FC3输出的所述参数θ、 所述相机Camer a估计模块中的所述全连接层FC6输出的所 述参数T按(f, θ, T)顺序横向拼接生 成587维特征, 输入到串行的所述第三形体尺 寸Shape估权 利 要 求 书 2/4 页 3 CN 115393512 A 3

PDF文档 专利 基于投影损失约束的单帧图像3D人体姿态估计及重建方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于投影损失约束的单帧图像3D人体姿态估计及重建方法 第 1 页 专利 基于投影损失约束的单帧图像3D人体姿态估计及重建方法 第 2 页 专利 基于投影损失约束的单帧图像3D人体姿态估计及重建方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:44:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。