全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210809719.4 (22)申请日 2022.07.11 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 孙力 周新月  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06V 40/10(2022.01) G06V 40/20(2022.01) G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于注意力机制的人体姿态转换方法 (57)摘要 本发明公开了一种基于注意力机制的人体 姿态转换方法, 其特点是将源人体图像和目标姿 态图像送入生成器转换为源人体图像在目标姿 态图像下的目标人体图像; 构建源 人体图像中所 有语义风格的自注意力模块; 构建源 人体图像中 所有语义风格与 目标姿态 图像之间的交叉注意 力模块, 利用交叉注意力模块中的交叉注意力矩 阵生成目标语义分割图; 将自注 意力模块和交叉 注意力模块嵌入到生成器中, 训练一个生成对抗 网络, 实现人体姿态转换。 本发明与现有技术相 比具有使用一个训练阶段可以同时生成目标人 体图像和目标语义分割图, 显著地提高图像质量 的特点, 方法简单, 效率高, 较好地解决了由于源 人体图像和目标姿态之间缺乏高效融合导致生 成图像质量差的问题。 权利要求书1页 说明书6页 附图3页 CN 115393890 A 2022.11.25 CN 115393890 A 1.一种基于注意力机制的人体姿态转换 方法, 其特 征在于, 该 方法包括以下 具体步骤: 步骤1: 将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像 下的目标 人体图像; 步骤2: 构建源人体图像中所有语义 风格的自注意力模块; 步骤3: 构建源人体图像 中所有语义风格与目标姿态图像之间的交叉注意力模块, 且利 用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图; 步骤4: 将自注意力模块和交叉注意力模块嵌入到生成器中, 训练一个生成对抗网络, 实现人体姿态转换。 2.根据权利要求1所述的基于注意力 机制的人体姿态转换方法, 其特征在于, 所述生成 器由姿态编码器、 风格编码器、 AdaIN模块和解码器组成, 其中目标姿态图像输入姿态编码 器得到目标姿态特征, 源人体图像和包含K个语义的源语义分割图输入风格编码器得到K个 语义风格编码, 然后 将K个语义风格编码通过AdaIN模块以侧枝的形式注入到目标姿态特征 中, 得到初步融合的特征Fcrs, 最后将初步融合的特征Fcrs输入解码器生成源人体图像在目 标姿态图像下的目标 人体图像。 3.根据权利要求1所述基于注意力机制的人体姿态转换方法, 其特征在于, 所述步骤2, 具体包括: 步骤2‑1: 将K个语义风格编码全部作为查询值query、 键值key和值项value, 其中查询 值query、 键值key和值项value的维度大小均为K*C, 计算K个语义风格编码之间的相似度, 即查询值query与键值key矩阵相乘, 经softmax函数处理后得到自注意力矩阵AMS, 其维度 大小为K*K; 步骤2‑2: 将自注意力矩阵AMS与值项value矩阵相乘, 得到自注意力机制的输出self_ out, 其维度大小为K* C; 步骤2‑3: 将自注意力机制的输出self_out与K个语义风格编码相加, 得到自注意力机 制的残差 输出residual_self, 其维度大小为K* C。 4.根据权利要求1所述基于注意力机制的人体姿态转换方法, 其特征在于, 所述步骤3, 具体包括: 步骤3‑1: 将初步融合的特征Fcrs作为查询 值query, 其维度大小为HW*C, 自注意力机制 的残差输出resi dual_self作为键值key和值项v alue, 其维度大小为K*C, 计算初步融合的 特征Fcrs与自注意力机制的残差输出residual_self之间的相似度, 即查询值query和键值 key矩阵相乘, 经softmax函数处 理后得到交叉注意力矩阵AM, 其维度大小为HW*K; 步骤3‑2: 将交叉注意力矩阵AM与值项value矩阵相乘, 得到交叉注意力机制的输出 cross_out, 其维度大小为HW* C; 步骤3‑3: 将交叉注意力机制的输出cross_out与初步融合的特征Fcrs相加, 得到交叉注 意力机制的残差 输出residual_cros s, 其维度大小为HW* C; 步骤3‑4: 输入源人体图像在目标姿态图像下的语义分割图, 将其作为真实标注 GroudTruth, 使用交叉熵损失约束交叉注意力矩阵AM, 从而利用交叉注意力矩阵AM生成目 标语义分割图。 5.根据权利要求1所述基于注意力 机制的人体姿态转换方法, 其特征在于, 所述注意力 模块嵌入到生成器中的方式为: 自注意力模块和交叉注意力模块接在AdaIN模块后, 解码器前。权 利 要 求 书 1/1 页 2 CN 115393890 A 2一种基于注意力机制的 人体姿态转换方 法 技术领域 [0001]本发明涉及计算机视觉与数字图像处理技术领域, 尤其是一种基于注意力机制的 人体姿态转换 方法。 背景技术 [0002]目前, 人体姿态转换具有许多潜在的应用, 比如行人重识别、 虚拟服装试穿等。 现 在的方法通常采用Squeeze ‑and‑Extraction(SE)或Adaptive  Instance  Normalization (AdaIN)来融合源人体图像和目标姿态图像, 然而这些方法缺乏对齐源人体图像与目标姿 态图像的能力; 或者使用二维或三维形变估计源姿态图像和目标姿态图像之间的对应关 系, 从而引导源人体图像在目标姿态图像下的分布, 这些方法虽然 可以生成真实的纹理, 但 当面对巨大 形变时它 们可能会产生明显的伪影。 [0003]此外, 也有方法采用交叉注意力机制计算源人体图像和目标姿态图像之间的密集 相关矩阵, 但每个目标位置只与源人体图像中的一小块区域有关联, 这也就意味着密集相 关矩阵应该 是一个稀疏矩阵, 而这种密集相关矩阵会导 致二次内存消耗。 [0004]因此, 一种高效的使用注意力机制融合源人体图像和目标姿态图像的方法十分必 要。 发明内容 [0005]本发明的目的是针对现有技术的不足而提供的一种基于注意力机制的人体姿态 转换方法, 采用将注意力模块嵌入到人体姿态转换网络的方法, 提升生成图像的质量: 将源 人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图 像; 构建源人体图像中所有语义风格的自注意力模块; 构建源人体图像中所有语义风格与 目标姿态图像之间的交叉注意力模块, 且利用交叉注意力模块中的交叉注意力矩阵生成目 标语义分割图; 将自注意力模块和交叉注意力模块嵌入到生成器中, 训练一个生成对抗网 络, 实现人体姿态转换, 显著 地提高图像质量, 方法简单, 效率高, 较好地解决了由于源人体 图像和目标姿态图像之间缺乏高效融合 导致生成图像质量差的问题。 [0006]本发明的目的是这样实现的: [0007]一种基于注意力机制的人体姿态转换方法, 其特点是在将注意力模块嵌入到人体 姿态转换网络, 将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图 像下的目标人体图像; 构建源人体图像中所有语义风格的自注意力模块; 构建源人体图像 中所有语义风格与目标姿态图像之 间的交叉注意力模块, 且利用交叉注意力模块中的交叉 注意力矩阵生成目标语义分割图; 将自注意力模块和交叉注意力模块嵌入到生成器中, 训 练一个生成对抗网络, 实现人体姿态转换, 具体包括以下步骤: [0008]步骤1: 将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态 图像下的目标 人体图像; [0009]步骤2: 构建源人体图像中所有语义 风格的自注意力模块;说 明 书 1/6 页 3 CN 115393890 A 3

.PDF文档 专利 一种基于注意力机制的人体姿态转换方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于注意力机制的人体姿态转换方法 第 1 页 专利 一种基于注意力机制的人体姿态转换方法 第 2 页 专利 一种基于注意力机制的人体姿态转换方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:26:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。