专利基于二次回归的一阶段多人人体检测和姿态估计的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210613234.8 (22)申请日 2022.05.31 (71)申请人谙迈科技（宁波）有限公司地址 315043 浙江省宁波市鄞州区潘火街道宁创科技中心1号2 901-1室 (72)发明人徐涛　范振坤　韩军功　黄焯旭　雷超　程王婧　 (74)专利代理机构嘉兴启帆专利代理事务所 (普通合伙) 33253 专利代理师林鸳 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/46(2022.01) G06V 10/25(2022.01) G06V 10/82(2022.01)G06V 10/766(2022.01) G06V 10/762(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 5/04(2006.01) (54)发明名称基于二次回归的一阶段多人人体检测和姿态估计的方法 (57)摘要本发明公开了一种基于二次回归的一阶段多人人体检测和姿态估计的方法，所用的深度神经网络由主体网络和特征金字塔两部分组成，使用了一阶段检测网络的思想提升了总体效率，并在训练网络时采用二次回归的方法。第一次回归时将人体的中心点作为特征图的正样本锚点，监督锚点回归人体的检测框坐标和人体的关键点坐标；第二次回归时将第一次回归预测出的关键点位置来作为锚点，监督该锚点学习自身和与之相邻的关键点与真实坐标的差值，从二次回归的锚点中得到关键点坐标更为精确的位置，从而提升姿态估计的精度以及提升对遮挡的鲁棒性。权利要求书3页说明书9页附图1页 CN 114863487 A 2022.08.05 CN 114863487 A 1.基于二次回归的一阶段多人人体检测和姿态估计的方法，其特征在于：包括以下步骤： 1)图像预处理：获取图像文件和相应的标签文件构成数据集，并将数据集分为训练集、验证集和测试集；标签文件中保存了图像文件内人体的多个人体关键点信息和边界框信息；选取标签文件中每个人的边界框的中心位置作为初次回归的锚点；选取人体关键点周围的点来作为二次回归的锚点； 2)构建多人人体检测和姿态估计模型：模型由主干网络、 Neck网络与预测网络组成；主干网络用于提取图像特征，主干网络由Focus模块、 CBL模块、 CSP模块和残差连接组成； Neck网络采用FPN+PAN的结构， FPN自顶向下进行多层采样，构造多尺度的特征金字塔， PAN使用自底向上的多层采样，加强了定位信息；预测网络： Neck网络中的PAN结构输出4层特征图，其中前3层特征图用于学习一次回归过程，最后一层特征图用户学习二次回归过程； 3)训练多人人体检测和姿态估计模型： c1)一次回归的监督：以人体的中心点作为特征图的正样本锚点，监督锚点回归人体的检测框坐标和人体的关键点坐标，使用L1损失函数来监督人体关键点坐标的回归，使用 CIOU loss来监督人体检测框的回归过程： Loss_person＝L1(anchor_point(i),target(i) ) Loss1＝α·Loss_person+β·Loss_CIoU 其中： anchor_point(i)代表网络输出层的第i个位置的锚点输出； target(i)代表网络输出层的第i个位置的锚点所对应的标签值； b和bgt代表预测框和标签框； ρ 表示两个矩形框之间的欧氏距离； c表示两个矩形框的闭包区域的对角线的距离； δ 是权重系数； v用来衡量两个矩形框相对比例的一致性； Intersecti on表示两框相交部分面积； Union表示两框相并的面积表示； wgt和w分别表示标签框的宽和预测框的宽值；权　利　要　求　书 1/3 页 2 CN 114863487 A 2hgt和h分别表示标签框的高和预测框的高值； α 和β 为预设权重系数，默认值为1；如公式所示，将Loss_point和Loss_CIoU分别乘以参数α和β 来进行加权，从而得到一次回归的总损失函数； c2)二次回归的监督：利用步骤1)中生成的标签来监督二次回归的锚点，学习自身和与之相邻的关键点与真实坐标的差值，以及自身的检测边界框；用L1损失函数来监督关键点坐标的回归： Loss_2＝L1(anchor_point(i),target(i) ) 将两次回归的损失函数相加，得到总的损失函数： loss_total＝Loss1+Loss_2 使用loss_total对网络参数求梯度，使用梯度下降法来优化网络的所有参数； 4)多人人体检测和姿态估计模型的推断与测试： a1)输入图像文件，并对输入的图像文件进行归一化处理； a2)利用非极大值抑制方法来获取一次回归的结果：获取预测网络输出的前3层特征图，获取特征图中每个位置回归的边界框和它的置信度，取得置信度最高的边界框先放入结果序列；遍历剩余位置，计算与当前置信度最高的边界框的交并比，若大于预设的阈值则剔除，然后对剩余位置的检测框重复上述操作，直到处理完网络输出的所有位置的边界框，即可得到最终位置；选取上述筛选出来的最终位置来作为一次回归的预测锚点，来获取一次回归的结果，即从该位置获取它回归出的人体关键点的坐标信息； a3)利用步骤a2)得到的一次回归的结果来找二次回归所需的锚点，即利用人体关键点的坐标映射到预测网络输出的第4层特征图中；得到二次回归的锚点后，分别取它们的二次回归的坐标，若置信度大于预设阈值，则用第二次回归的坐标来替代一次回归的坐标；反之，依然使用一次回归的坐标结果来作为最终的输出坐标； a4)选取测试集内的图像文件，重复步骤a1)～a3)进行推断，得到测试集内图像文件的各个人体关键点的坐标信息，完成多人人体检测和姿态估计。 2.如权利要求1所述的基于二次回归的一阶段多人人体检测和姿态估计的方法，其特征在于：步骤1)中的图像预处理，包括以下步骤： b1)图像归一化：从多人大型姿态估计公开数据集MS ‑COCO上获取图像文件和相应的标签文件；将图片进行缩放至512 ×512像素大小，利用MSCOCO数据集图像RGB三个通道各自的均值与标准差,对图像进行标准化操作，并且将数据集分为训练集、验证集和测试集三个部分； b2)锚框值的选取：载入MS ‑COCO数据集中的所有标签文件，得到该数据集中所有人体边界框的宽和高，将每张图片对应标签的人体边界框的宽和高等比例缩放；并将边界框的相对坐标转化为绝对坐标；筛选边界框，保留宽和高均大于等于两个像素的边界框；使用K ‑ 均值算法对边界框进行聚类；最后使用遗传算法随机对锚框的宽和高进行变异；若变异后适应度提高，则将变异后的结果赋值给锚框，若变异后适应度降低，则跳过该次变异结果，进行下一次变异，默认变异10 00次； b3)生成包含人体检测框和关键点的锚点和标签：选取标签中每个人的边界框的中心权　利　要　求　书 2/3 页 3 CN 114863487 A 3

专利 基于二次回归的一阶段多人人体检测和姿态估计的方法

专利基于二次回归的一阶段多人人体检测和姿态估计的方法