全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210613234.8 (22)申请日 2022.05.31 (71)申请人 谙迈科技 (宁波) 有限公司 地址 315043 浙江省宁波市 鄞州区潘火街 道宁创科技中心1号2 901-1室 (72)发明人 徐涛 范振坤 韩军功 黄焯旭  雷超 程王婧  (74)专利代理 机构 嘉兴启帆专利代理事务所 (普通合伙) 33253 专利代理师 林鸳 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/46(2022.01) G06V 10/25(2022.01) G06V 10/82(2022.01)G06V 10/766(2022.01) G06V 10/762(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 5/04(2006.01) (54)发明名称 基于二次回归的一阶段多人人体检测和姿 态估计的方法 (57)摘要 本发明公开了一种基于二次回归的一阶段 多人人体检测和姿态估计的方法, 所用的深度神 经网络由主体网络和特征金字塔两部分组成, 使 用了一阶段检测网络的思想提升了总体效率, 并 在训练网络时采用二次回归的方法。 第一次回归 时将人体的中心点作为特征图的正样本锚点, 监 督锚点回归人体的检测框坐标和人体的关键点 坐标; 第二次回归时将第一次回归 预测出的关键 点位置来作为锚点, 监督该锚点学习自身和与之 相邻的关键点与真实坐标的差值, 从二次回归的 锚点中得到关键点坐标更为精确的位置, 从而提 升姿态估计的精度以及提升对 遮挡的鲁棒 性。 权利要求书3页 说明书9页 附图1页 CN 114863487 A 2022.08.05 CN 114863487 A 1.基于二次回归的一阶段多人人体检测和姿态估计的方法, 其特征在于: 包括以下步 骤: 1)图像预处理: 获取图像文件和相应的标签文件构 成数据集, 并将数据集分为训练集、 验证集和测试集; 标签文件中保存了图像文件内人体的多个人体关键点信息和边界框信 息; 选取标签文件中每个人 的边界框的中心位置作为初次回归的锚点; 选取人体关键点周 围的点来作为二次回归的锚点; 2)构建多人 人体检测和姿态估计模型: 模型由主干网络、 Neck网络与预测网络组成; 主干网络用于提取 图像特征, 主干网络 由Focus模块、 CBL模块、 CSP模块和残差连接组 成; Neck网络采用FPN+PAN的结构, FPN自顶向下进行多层采样, 构造多尺度的特征金字塔, PAN使用自底向上的多层采样, 加强了 定位信息; 预测网络: Neck网络中的PAN结构输出4层 特征图, 其中前3层特征图用于学习一次回归 过程, 最后一层特 征图用户学习二次 回归过程; 3)训练多人 人体检测和姿态估计模型: c1)一次回归的监督: 以人体的中心点作为特征图的正样本锚点, 监督锚点回归人体的 检测框坐标和人体的关键点坐标, 使用L1损失函数来监督人体关键点坐标的回归, 使用 CIOU loss来监督人体检测框的回归过程: Loss_person=L1(anchor_point(i),target(i) ) Loss1=α·Loss_person+β·Loss_CIoU 其中: anchor_point(i)代表网络输出层的第i个位置的锚点输出; target(i)代 表网络输出层的第i个位置的锚点所对应的标签值; b和bgt代表预测框和标签框; ρ 表示两个矩形框之间的欧氏距离; c表示两个矩形框的闭包区域的对角线的距离; δ 是权重系数; v用来衡量两个矩形框相对比例的一 致性; Intersecti on表示两框相交部分面积; Union表示两框相并的面积表示; wgt和w分别表示标签框的宽和预测框的宽值;权 利 要 求 书 1/3 页 2 CN 114863487 A 2hgt和h分别表示标签框的高和预测框的高值; α 和β 为预设权 重系数, 默认值 为1; 如公式所示, 将Loss_point和Loss_CIoU分别 乘以参数α和β 来进行加权, 从而得到一次 回归的总损失函数; c2)二次回归的监督: 利用步骤1)中生成的标签来监督二次回归的锚点, 学习自身和与 之相邻的关键点与真实坐标的差值, 以及自身的检测边界框; 用L1损失函数来监督关键点 坐标的回归: Loss_2=L1(anchor_point(i),target(i) ) 将两次回归的损失函数相加, 得到总的损失函数: loss_total=Loss1+Loss_2 使用loss_total对网络参数求梯度, 使用梯度下降法来优化网络的所有参数; 4)多人人体检测和姿态估计模型的推断与测试: a1)输入图像文件, 并对输入的图像文件进行归一 化处理; a2)利用非极大值抑制方法来获取一次回归的结果: 获取预测网络输出的前3层特征 图, 获取特征图中每个位置回归的边界框和它的置信度, 取得置信度最高的边界框先放入 结果序列; 遍历剩余位置, 计算与当前置信度最高的边界框的交并比, 若 大于预设的阈值则 剔除, 然后对剩余位置的检测框重复上述操作, 直到处理完网络输出的所有位置的边界框, 即可得到最终位置; 选取上述筛选出来的最终位置来作为一次回归的预测锚点, 来获取一次回归的结果, 即从该位置获取它回归出的人体关键点的坐标信息; a3)利用步骤a2)得到的一次回归的结果来找二次回归所需的锚点, 即利用人体关键点 的坐标映射到预测网络输出的第4层特征图中; 得到二次回归的锚点后, 分别取它们的二次 回归的坐标, 若置信度大于预设阈值, 则用第二次回归的坐标来替代一次回归的坐标; 反 之, 依然使用一次 回归的坐标 结果来作为最终的输出坐标; a4)选取测试集 内的图像文件, 重 复步骤a1)~a3)进行推断, 得到测试集 内图像文件的 各个人体关键点的坐标信息, 完成多人 人体检测和姿态估计。 2.如权利要求1所述的基于二次回归的一阶段多人人体检测和姿态估计的方法, 其特 征在于: 步骤1)中的图像预处 理, 包括以下步骤: b1)图像归一化: 从多人大型姿态估计公开数据集MS ‑COCO上获取图像文件和相应的标 签文件; 将图片进行缩放至512 ×512像素大小, 利用MSCOCO数据集图像RGB三个通道各自的 均值与标准差,对图像进 行标准化操作, 并且将数据集分为训练集、 验证集和测试集三个部 分; b2)锚框值的选取: 载入MS ‑COCO数据集中的所有标签文件, 得到该数据集中所有人体 边界框的宽和高, 将每张图片对应标签的人体边界框的宽和高等比例缩放; 并将边界框的 相对坐标转化为绝对坐标; 筛选边界框, 保留宽和高均大于等于两个像素的边界框; 使用K ‑ 均值算法对边界框进行聚类; 最后使用遗传算法随机对锚框的宽和高进行变异; 若变异后 适应度提高, 则将变异后的结果赋值给锚框, 若变异后适应度降低, 则跳过该次变异结果, 进行下一次变异, 默认变异10 00次; b3)生成包含人体检测框和关键点的锚点和标签: 选取标签中每个人的边界框的中心权 利 要 求 书 2/3 页 3 CN 114863487 A 3

.PDF文档 专利 基于二次回归的一阶段多人人体检测和姿态估计的方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于二次回归的一阶段多人人体检测和姿态估计的方法 第 1 页 专利 基于二次回归的一阶段多人人体检测和姿态估计的方法 第 2 页 专利 基于二次回归的一阶段多人人体检测和姿态估计的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:57:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。