专利基于两级加权均方损失函数的人体姿态估计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210785546.7 (22)申请日 2022.07.06 (71)申请人长春理工大学地址 130022 吉林省长春市朝阳区卫星路 3089号 (72)发明人王宇　赵凯　 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称基于两级加权均方损失函数的人体姿态估计方法 (57)摘要本发明公开一种基于两级加权均方损失函数的人体姿态估计方法。本发明采用HRNet作为主干网络。针对关键点热图前景和背景像素不均衡的问题，使用加权的方式对损失函数进行优化，使得网络学习的参数更加准确。针对HRNet网络层数深，且浅层网络的参数学习也比较重要，本发明设计了两级加权损失函数进行网络监督和参数学习，有效加强了对浅层网络的监督力度。最后本发明在COCO人体关键点数据集上验证了该损失函数的有效性。权利要求书2页说明书6页附图4页 CN 115063890 A 2022.09.16 CN 115063890 A 1.基于两级加权均方损失函数的人体姿态估计方法，其特征在于包括下列步骤：步骤1，数据准备，将人体姿态相关数据集分为训练集和验证集两部分，并且所有图像都包含人工标记的人体框和每个关键点的类别和位置信息，每幅图像中标注有N个人体检测框，每个人体检测框对应两个坐标位置，分别为人体检测框左上角和右下角位置的坐标，每个人体检测框都包含M个人体关键点的标记信息，每个标记信息包括关键点类别和在图像中的坐标信息。最后将坐标信息转化为真实热图。步骤2，构建HRNet网络结构，标准的HRNet的网络结构分为四个阶段，每个阶段包含了不同分辨率的特征。本发明将HRNet网络第三阶段和第四阶段网络相加融合后的第一分支引出，输入至损失函数进行计算，如图1所示。四个阶段分辨率特征分别是指：第一阶段包含1/4分辨率的特征，第二阶段包含1/4、 1/ 8分辨率的特征，第三阶段包含1/4、 1/8、 1/16分辨率的特征，第四阶段包含1/4、 1/8、 1/16、 1/32分辨率的特征。每个阶段内包含的不同特征通tr ansition进行融合，保证了网络中的高分辨率信息。所有分支相加融合是指由于HRNet是多分辨率并行网络，在每一阶段同时有多个分辨率图像存在，所以在各个阶段过渡时会将多个分支的分辨率统一经过上采样或下采样调整到统一分辨率，并且使用1*1卷积调整各个分支的通道数，最终会统一到传入分支要求的通道数和分辨率，最后将统一的各分支的特征图相加传入下一阶段。使用第三阶段各分支融合后的特征图输出是因为融合后的特征图包含了整个第三阶段所有的特征信息。使用此作为姿态估计结果进行损失函数的计算，可以高效准确的调整第一、二、三阶段浅层网络的学习参数，使网络的关键点估计准确率更高。只使用阶段三的第一分支输出特征图是考虑到高分辨率的语义信息对关键点估计的准确性有着至关重要的影响，而第一分支有着整个网络最高的分辨率信息，即包含了最丰富的语义信息，这对网络参数的准确学习有着至关重要的作用。步骤3，进行两级加权损失函数计算，如图2所示。将步骤2得到的特征图1和特征图2输入至1*1*M卷积调整热图通道数至与关键点数目一致，得到热图1和热图2。分别对热图1和热图2与步骤1得到的真实热图进行损失函数计算得到Loss1和Loss2。网络总损失函数由式1 计算得到l ossall，以此进行反向传播学习网络参数。特征图1和特征图2的尺寸是Fi∈RH/4×W/4×C，经过1*1*M卷积后热图1与热图2的尺寸相同均为Fo∈RH/4×W/4×M，其中H是输入图像的高， W是输入图像的宽， C是选择的HRNet的通道数， M 是步骤1的人体关键点数量。总损失函数l ossall定义如式(1)所示： lossall＝α1Loss1+α2Loss2 (1) 式中α1和α2分别是Loss1和Loss2的权重，其中0<α1<1， 0<α2<＝1，因为Loss1是浅层网络输出的热图相较于深层网络含有更多噪声，故需要施以较小权重平衡掉噪声。每张热图对应一个关键点,数据集图像中标识多少关键点,则网络需回归相应的热图数.所回归的热图中前景部分一般使用高斯函数来计算像素点值,计算式定义如式(2)所示：权　利　要　求　书 1/2 页 2 CN 115063890 A 2其中， x， y是当前坐标， σ 是高斯分布方差。 x0， y0是热图的中心坐标。由上式计算产生的前景像素，只占据热图全部像素很小的一部分，背景部分占据了热图绝大部分的像素点。如果直接使用传统均方损失函数，计算如图2中的热图1和热图2与步骤1得到的真实热图之间的欧式距离,会忽略前景和背景像素点不均衡问题，导致网络更加倾向于学习背景而非前景,降低了关键点识别的准确率。使用损失函数计算得到的l oss1和loss2定义如式(3)式(4)所示： loss1＝ωLf1+(1‑ω)Lb1 (3) loss2＝ωLf2+(1‑ω)Lb2 (4) 式中Lf1和Lf2分别是图2中热图1和热图2前景计算的损失函数， Lb1和Lb2分别是图2中热图1和热图2背景计算的损失函数，其中ω是前景权重， (1 ‑ω)是背景权重， 0.5<ω<1。式中 Lf1、 Lf2、 Lb1和Lb2皆使用MSE损失函数计算，计算式如式(5)所示，式中y'i是真实热图， yi是网络预测的热图， n是每批batc h中所含的样本数。步骤4，将步骤1划分出的训练集传入改进了损失函数的HRNet网络进行训练。步骤5，使用步骤1划分出的验证集图像送入步骤4训练后的改进损失函数的HRNet网络，得到最终预测的人体关键点类别和关键点坐标等。将所述验证集传入改进后的HRNet网络中，得到最终预测的人体关键点结果，由于 HRNet网络的输出是高斯热图的形式，最后还要转换成具体的坐标值，转换的方式是选取高斯热图的最大值，将最大值的位置向次大值偏移14选取此位置为最终结果；同时，输出结果是包含多张预测的高斯热图，每一张高斯热图代表具体关键点的类别，最终，对预测的人体关键点按照图像，人体框、关键点类别和坐标的形式以jso n文件格式输出。权　利　要　求　书 2/2 页 3 CN 115063890 A 3

专利 基于两级加权均方损失函数的人体姿态估计方法

专利基于两级加权均方损失函数的人体姿态估计方法