专利手术室场景下基于改进HRNet网络的人体姿态估计方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111668026.X (22)申请日 2021.12.31 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人吴秋遐　杨鹭飞　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 代理人冯炳辉 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称手术室场景下基于改进HRNet网络的人体姿态估计方法 (57)摘要本发明公开了一种手术室场景下基于改进 HRNet网络的人体姿态估计方法，包括： 1)数据准备，包括手术室场景下的样本数据和一个人体姿态相关的数据集； 2)对HRNet网络进行改进，加入了设计的混合注意力机制模块； 3)对改进HRNet 网络进行训练，采用迁移学习的方式，在准备的人体姿态相关的那个数据集上进行训练，采用在两个数据集并行训练方式，同时在网络的中间层加入MMD Loss，计算中间特征图的损失，来拉近不同数据集的数据分布距离； 4)将测试集传入到训练后的改进HRNet网络中，得到最终预测的人体关键点。本发明能够克服原有数据集样本量少，遮挡、人体肢干难以识别的问题，改进后的 HRNet网络提高了人体姿态估计检测的精度，有助于3D人体姿态估计以及行为识别等其它视觉任务。权利要求书4页说明书9页附图2页 CN 114373226 A 2022.04.19 CN 114373226 A 1.手术室场景下基于改进HRNet网络的人体姿态估计方法，其特征在于，包括以下步骤： 1)数据准备，包括手术室场景下的样本数据和一个人体姿态相关的数据集，其中，手术室场景下的样本数据划分出一部分样本作为测试集，所有数据中的图像都包含人工标记的人体框和关键点位置信息，每幅图像中人体框标注有N个，每个人体框信息对应两个坐标位置，分别为人体框的左上角和右下角的坐标，每个人体框都包含m个人体关键点的标记信息，每个标记信息对应具体类别和坐标值； 2)对HRNet网络进行改进，加入了设计的混合注意力机制模块，使用空间注意力机制和通道注意力机制顺序结合的方式代替了原有HRNet网络中多分辨率特征图融合的方式，将特征直接相加的方式转化为学习对应权重的方式进行加权求和，得到更聚焦检测关键点的特征图；改进后的HRNet网络根据特征图生成最终结果图，结果图包含多张概率图，其中用于监督的概率图是由步骤1)中每个人体框包含的m个人体关键点生成的； 3)对改进HRNet网络进行训练，由于手术室场景下的样本的量少，需先用步骤1)中准备的人体姿态相关的那个数据集进行训练，然后再把手术室场景下的样本数据加入到训练过程中，选取合适的位置，加入一个中间监督即最大均值差异损失MMD Loss用于计算人体姿态相关的那个数据集的数据空间与手术室场景的数据空间的分布差异，拉进两者的数据空间；通过MMD Loss来优化改进HRNet网络在人体姿态相关的那个数据集上训练得到的参数，来达到更高准确率的目的； 4)将步骤1)中的测试集传入到训练后的改进HRNet网络中，得到最终预测的人体关键点，预测出的人体关键点包含类别和坐标信息。 2.根据权利要求1所述的基于改进HRNet网络的人体姿态估计方法，其特征在于，在步骤1)中，人体框是指在图像上标记两个坐标点，表示为：式中， Ni指第i个人体框， n大于零，表示可能存在人体框的数量， lxi和rxi是指图像坐标系下框的左上角和右下角位置对应的X轴分量， lyi和ryi是指在图像坐标系下框的左上角和右下角位置对应的Y轴分量；每一个人体框都包含m个人体关键点，人体关键点的信息对应于图像中的二维坐标信息，人体关键点所对应的坐标信息为：式中， Mj指第j个人体关键点在一张图片中具体的坐标位置， m大于零，表示存在人体关键点的个数， xj和yj分别表示Mj在图像坐标系下的X轴、 Y轴分量。 3.根据权利要求1所述的基于改进HRNet网络的人体姿态估计方法，其特征在于，在步骤2)中，所设计的混合注意力机制模块包含空间注意力机制和空间注意力机制，具体情况如下：权　利　要　求　书 1/4 页 2 CN 114373226 A 2a、空间注意力机制假设一个输入特征图F，通过全局最大池化或全局平均池化对输入特征图的通道域特征进行压缩，接着通过卷积将多通道特征压缩为单通道，消除通道间信息分布对空间注意力机制的影响，然后通过激活函数归一化空间权重信息，最终将空间权重信息和输入特征图对应元素相乘，生成不同权重的特征图，空间注意力机制的运算过程具体式子如下： Ms(F)＝ δ(f3×3[AvgPool(F)； MaxPo ol(F)]) 式中， F为输入特征图， δ表示sigmoid激活函数， f表示卷积层，卷积核大小为3 ×3， [AvgPool(F)； MaxPo ol(F)]表示池化后的特征图， Ms是一个空间注意力参数矩阵； b、通道注意力机制通道注意力机制包含3个部分：压缩模块、激励模块和融合模块；压缩模块通过使用一个池化层，把通道内的全局特征信息进行求和压缩，形成各自的通道特征，该特征能够体现全局的通道特征信息，扩大了网络的感受野；激励模块是为了降低参数数量同时增强通道注意力机制的迁移能力，该激励模块采用两个连接层得到各自的权重参数；融合模块在每个通道域上对得到的特征权重与原卷积相应的通道特征值进行加权融合，使得卷积通道特征表现出不同的权重，从而提取出特征目标中的关键信息，具体式子如下：式中， MLP表示多层感知机，表示平均池化特征， W0∈R(c/r)×c和W1∈Rc×(c/r)表示多层感知机的权重，其中R表示维度， r表示减少率， c是特征通道数， Mc(F)是一个通道注意力参数矩阵；由于HRNet网络中存在多分辨率特征图进行上采样或者下采样后进行融合的过程，其中采样后的特征图和原有分辨率的特征图直接对应位置相加的方式，原有的HRNet网络主观地认为不同分辨率的特征具有同样的重要性，该方式是有缺陷的，改进措施是将该方式改为自学习的方式，在改进HRNet网络中，设计的混合注意力机制模块采用了空间注意力机制和通道注意力机制顺序结合的方式，在融合过程中加入了空间注意力机制和通道注意力机制,能够提升最终人体姿态估计检测的精度，具体方式如下：假设有两个特征图F0∈RH×W×3C和F1∈RH/2×W/2×2C进行融合，其中H表示特征图的长， W表示特征图的宽， C表示特征图的通道数量,原有的融合方式是直接将 F1进行上采样后经过1 ×1 的卷积变为通道数为C后再与F0进行相加，加入空间注意力机制和通道注意力机制后的流程为：先对F0和F1分别进行一次空间注意力机制，分别获取到对应的特征图F0'∈RH×W×C和 F1'∈RH/2×W/2×2C，然后将F1'使用双线性插值的方式进行上采样到特征图F1”∈RH×W×2C，此时将F0'和F1”进行一个拼接得到一个新的融合特征图Fs∈RH×W×3C，在融合特征图Fs后续采用通道注意力的方式得到新的特征图Fc∈RH×W×3C，然后再通过一个1 ×1×C的卷积核，将通道数降为C，得到最终的特征图Fo∈RH×W×C；以上，就是在混合注意力机制模块中针对上采样过程加入的方式，由于网络中同时存在下采样过程，只需要将F0'∈RH×W×C经过步长为2的卷积核下采样到特征图F0”∈RH/2×W/2×C，然后将F0”和F1'进行一个拼接得到一个新的融合特征图Fs'∈RH/2*W/2*3C，然后再经过通道注意力机制，同时采用1 ×1×2C的卷积核进行卷积来改变通道数，获取到最终的特征图Fo'∈权　利　要　求　书 2/4 页 3 CN 114373226 A 3

专利 手术室场景下基于改进HRNet网络的人体姿态估计方法

专利手术室场景下基于改进HRNet网络的人体姿态估计方法