全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111668026.X (22)申请日 2021.12.31 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 吴秋遐 杨鹭飞  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 代理人 冯炳辉 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 手术室场景下基于改进HRNet网络的人体姿 态估计方法 (57)摘要 本发明公开了一种手术室场景下基于改进 HRNet网络的人体姿态估计方法, 包括: 1)数据准 备, 包括手术室场景下的样本数据和一个人体姿 态相关的数据集; 2)对HRNet网络进行改进, 加入 了设计的混合注意力机制模块; 3)对改进HRNet 网络进行训练, 采用迁移学习的方式, 在准备的 人体姿态相关的那个数据集上进行训练, 采用在 两个数据集并行训练方式, 同时在网络的中间层 加入MMD Loss, 计算中间特征图的损失, 来拉近 不同数据集的数据分布距离; 4)将测试集传入到 训练后的改进HRNet网络中, 得到最终预测的人 体关键点。 本发明能够克服原有数据集样本量 少, 遮挡、 人体肢干难以识别的问题, 改进后的 HRNet网络提高了人体姿态估计检测的精度, 有 助于3D人体姿态估计以及行为识别等其它视觉 任务。 权利要求书4页 说明书9页 附图2页 CN 114373226 A 2022.04.19 CN 114373226 A 1.手术室场景下基于改进HRNet网络的人体姿态估计方法, 其特征在于, 包括以下步 骤: 1)数据准备, 包括手术室场景下的样本数据和一个人体姿态相关的数据集, 其中, 手术 室场景下的样本数据划分出一部分样本作为测试集, 所有 数据中的图像都包含人工标记的 人体框和关键点位置信息, 每幅图像中人体框标注有N个, 每个人体框信息对应两个坐标位 置, 分别为人体框的左上角和右下角的坐标, 每个人体框都包含m个人体关键点的标记信 息, 每个标记信息对应具体 类别和坐标值; 2)对HRNet网络进行改进, 加入了设计的混合注意力机制模块, 使用空间注意力机制和 通道注意力机制顺序结合的方式代替了原有HRNet网络中多分辨率特征图融合的方式, 将 特征直接相加的方式转化为学习对应权重的方式进行加权求和, 得到更聚焦检测关键点的 特征图; 改进后的HRNet网络根据特征图生成最终结果图, 结果图包含多张概率图, 其中用 于监督的概率图是由步骤1)中每 个人体框包 含的m个人体关键点 生成的; 3)对改进HRNet网络进行训练, 由于手术室场景下的样本的量少, 需先用步骤1)中准备 的人体姿态相关的那个数据集进 行训练, 然后再把手术室场景下的样本数据加入到训练过 程中, 选取合适的位置, 加入一个中间监督即最大均值差异损失MMD  Loss用于计算人体姿 态相关的那个数据集的数据空间与手术室场景的数据空间的分布差异, 拉进两者的数据空 间; 通过MMD  Loss来优化改进HRNet网络在人体姿态相关的那个数据集上训练得到的参数, 来达到更高准确率的目的; 4)将步骤1)中的测试集传入到训练后的改进HRNet网络中, 得到最终预测的人体关键 点, 预测出的人体关键点包 含类别和坐标信息 。 2.根据权利要求1所述的基于改进HRNet网络的人体姿态估计方法, 其特征在于, 在步 骤1)中, 人体框是指在图像上 标记两个坐标点, 表示 为: 式中, Ni指第i个人体框, n大于零, 表示可 能存在人体框的数量, lxi和rxi是指图像坐标 系下框的左上角和右下角位置对应的X轴分量, lyi和ryi是指在图像坐 标系下框的左上角和 右下角位置对应的Y轴分量; 每一个人体框都包含m个人体关键点, 人体关键点的信息对应于 图像中的二维坐标信 息, 人体关键点所对应的坐标信息为: 式中, Mj指第j个人体关键点在一张图片中具体的坐标位置, m大于零, 表示存在人体关 键点的个数, xj和yj分别表示Mj在图像坐标系下的X轴 、 Y轴分量。 3.根据权利要求1所述的基于改进HRNet网络的人体姿态估计方法, 其特征在于, 在步 骤2)中, 所设计的混合注意力机制模块包含空间注意力机制和空间注意力机制, 具体情况 如下:权 利 要 求 书 1/4 页 2 CN 114373226 A 2a、 空间注意力机制 假设一个输入特征图F, 通过全局最大池化或全局平均池化对输入特征图的通道域特 征进行压缩, 接着通过卷积将多通道特征压缩为单通道, 消除通道间信息分布对空间注意 力机制的影响, 然后通过激活函数归一化空间权重信息, 最终将空间权重信息和输入特征 图对应元 素相乘, 生成不同权 重的特征图, 空间注意力机制的运 算过程具体式子如下: Ms(F)= δ(f3×3[AvgPool(F); MaxPo ol(F)]) 式中, F为输入特征图, δ表示sigmoid激活函数, f表示卷积层, 卷积核大小为3 ×3, [AvgPool(F); MaxPo ol(F)]表示池化后的特 征图, Ms是一个空间注意力参数矩阵; b、 通道注意力机制 通道注意力机制包 含3个部分: 压缩 模块、 激励模块和融合模块; 压缩模块通过使用一个池化层, 把通道内的全局特征信息进行求和压缩, 形成各自的 通道特征, 该特征能够体现全局的通道特 征信息, 扩大了网络的感受野; 激励模块是为了降低 参数数量同时增强通道注意力 机制的迁移能力, 该激励模块采用 两个连接层得到各自的权 重参数; 融合模块在每个通道域上对得到的特征权重与原卷积相应的通道特征值进行加权融 合, 使得卷积通道特征表现出不同的权重, 从而提取出特征目标中的关键信息, 具体式子如 下: 式中, MLP表示多层 感知机, 表示平均池化特征, W0∈R(c/r)×c和W1∈Rc×(c/r)表示多层 感知机的权重, 其中R表示维度, r表示减少率, c是特征通道数, Mc(F)是一个通道注意力参 数矩阵; 由于HRNet网络中存在多分辨率特征图进行上采样或者下采样后进行融合的过程, 其 中采样后的特征图和原有分辨率的特征图直接对应位置相加的方式, 原有的HRNet网络主 观地认为不同分辨率的特征具有同样的重要性, 该方式是有缺陷的, 改进措施是将该方式 改为自学习的方式, 在改进HRNet网络中, 设计的混合注 意力机制模块采用了空间注 意力机 制和通道注意力机制顺序结合的方式, 在融合过程中加入了空间注意力机制和通道注意力 机制,能够提升最终人体姿态估计 检测的精度, 具体方式如下: 假设有两个特征图F0∈RH×W×3C和F1∈RH/2×W/2×2C进行融合, 其中H表示特征图的长, W表示 特征图的宽, C表示特征图的通道数量,原有的融合方 式是直接将 F1进行上采样后经过1 ×1 的卷积变为通道数为C后再与F0进行相加, 加入空间注意力机制和通道注意力机制后的流 程为: 先对F0和F1分别进行一次空间注意力机制, 分别获取到对应的特征图F0'∈RH×W×C和 F1'∈RH/2×W/2×2C, 然后将F1'使用双线性插值的方式进行上采样到特征图F1”∈RH×W×2C, 此时 将F0'和F1”进行一个 拼接得到 一个新的融合特征图Fs∈RH×W×3C, 在融合特征图Fs后续采用通 道注意力的方式得到新的特征图Fc∈RH×W×3C, 然后再通过一个1 ×1×C的卷积核, 将通道数 降为C, 得到最终的特 征图Fo∈RH×W×C; 以上, 就是在混合注意力机制模块中针对上采样过程加入的方式, 由于网络中同时存 在下采样过程, 只需要将F0'∈RH×W×C经过步长为2的卷积核下采样到特征图F0”∈RH/2×W/2×C, 然后将F0”和F1'进行一个拼接得到一个新的融合特征图Fs'∈RH/2*W/2*3C, 然后再经过通道注 意力机制, 同时采用1 ×1×2C的卷积核进行卷积来改变通道数, 获取到最终的特征图Fo'∈权 利 要 求 书 2/4 页 3 CN 114373226 A 3

.PDF文档 专利 手术室场景下基于改进HRNet网络的人体姿态估计方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 手术室场景下基于改进HRNet网络的人体姿态估计方法 第 1 页 专利 手术室场景下基于改进HRNet网络的人体姿态估计方法 第 2 页 专利 手术室场景下基于改进HRNet网络的人体姿态估计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:45:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。