专利一种基于注意力机制的人体姿态转换方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210809719.4 (22)申请日 2022.07.11 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人孙力　周新月　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06V 40/10(2022.01) G06V 40/20(2022.01) G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于注意力机制的人体姿态转换方法 (57)摘要本发明公开了一种基于注意力机制的人体姿态转换方法，其特点是将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像；构建源人体图像中所有语义风格的自注意力模块；构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块，利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图；将自注意力模块和交叉注意力模块嵌入到生成器中，训练一个生成对抗网络，实现人体姿态转换。本发明与现有技术相比具有使用一个训练阶段可以同时生成目标人体图像和目标语义分割图，显著地提高图像质量的特点，方法简单，效率高，较好地解决了由于源人体图像和目标姿态之间缺乏高效融合导致生成图像质量差的问题。权利要求书1页说明书6页附图3页 CN 115393890 A 2022.11.25 CN 115393890 A 1.一种基于注意力机制的人体姿态转换方法，其特征在于，该方法包括以下具体步骤：步骤1：将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像；步骤2：构建源人体图像中所有语义风格的自注意力模块；步骤3：构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块，且利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图；步骤4：将自注意力模块和交叉注意力模块嵌入到生成器中，训练一个生成对抗网络，实现人体姿态转换。 2.根据权利要求1所述的基于注意力机制的人体姿态转换方法，其特征在于，所述生成器由姿态编码器、风格编码器、 AdaIN模块和解码器组成，其中目标姿态图像输入姿态编码器得到目标姿态特征，源人体图像和包含K个语义的源语义分割图输入风格编码器得到K个语义风格编码，然后将K个语义风格编码通过AdaIN模块以侧枝的形式注入到目标姿态特征中，得到初步融合的特征Fcrs，最后将初步融合的特征Fcrs输入解码器生成源人体图像在目标姿态图像下的目标人体图像。 3.根据权利要求1所述基于注意力机制的人体姿态转换方法，其特征在于，所述步骤2，具体包括：步骤2‑1：将K个语义风格编码全部作为查询值query、键值key和值项value，其中查询值query、键值key和值项value的维度大小均为K*C，计算K个语义风格编码之间的相似度，即查询值query与键值key矩阵相乘，经softmax函数处理后得到自注意力矩阵AMS，其维度大小为K*K；步骤2‑2：将自注意力矩阵AMS与值项value矩阵相乘，得到自注意力机制的输出self_ out，其维度大小为K* C；步骤2‑3：将自注意力机制的输出self_out与K个语义风格编码相加，得到自注意力机制的残差输出residual_self，其维度大小为K* C。 4.根据权利要求1所述基于注意力机制的人体姿态转换方法，其特征在于，所述步骤3，具体包括：步骤3‑1：将初步融合的特征Fcrs作为查询值query，其维度大小为HW*C，自注意力机制的残差输出resi dual_self作为键值key和值项v alue，其维度大小为K*C，计算初步融合的特征Fcrs与自注意力机制的残差输出residual_self之间的相似度，即查询值query和键值 key矩阵相乘，经softmax函数处理后得到交叉注意力矩阵AM，其维度大小为HW*K；步骤3‑2：将交叉注意力矩阵AM与值项value矩阵相乘，得到交叉注意力机制的输出 cross_out，其维度大小为HW* C；步骤3‑3：将交叉注意力机制的输出cross_out与初步融合的特征Fcrs相加，得到交叉注意力机制的残差输出residual_cros s，其维度大小为HW* C；步骤3‑4：输入源人体图像在目标姿态图像下的语义分割图，将其作为真实标注 GroudTruth，使用交叉熵损失约束交叉注意力矩阵AM，从而利用交叉注意力矩阵AM生成目标语义分割图。 5.根据权利要求1所述基于注意力机制的人体姿态转换方法，其特征在于，所述注意力模块嵌入到生成器中的方式为：自注意力模块和交叉注意力模块接在AdaIN模块后，解码器前。权　利　要　求　书 1/1 页 2 CN 115393890 A 2一种基于注意力机制的人体姿态转换方法技术领域 [0001]本发明涉及计算机视觉与数字图像处理技术领域，尤其是一种基于注意力机制的人体姿态转换方法。背景技术 [0002]目前，人体姿态转换具有许多潜在的应用，比如行人重识别、虚拟服装试穿等。现在的方法通常采用Squeeze ‑and‑Extraction(SE)或Adaptive Instance Normalization (AdaIN)来融合源人体图像和目标姿态图像，然而这些方法缺乏对齐源人体图像与目标姿态图像的能力；或者使用二维或三维形变估计源姿态图像和目标姿态图像之间的对应关系，从而引导源人体图像在目标姿态图像下的分布，这些方法虽然可以生成真实的纹理，但当面对巨大形变时它们可能会产生明显的伪影。 [0003]此外，也有方法采用交叉注意力机制计算源人体图像和目标姿态图像之间的密集相关矩阵，但每个目标位置只与源人体图像中的一小块区域有关联，这也就意味着密集相关矩阵应该是一个稀疏矩阵，而这种密集相关矩阵会导致二次内存消耗。 [0004]因此，一种高效的使用注意力机制融合源人体图像和目标姿态图像的方法十分必要。发明内容 [0005]本发明的目的是针对现有技术的不足而提供的一种基于注意力机制的人体姿态转换方法，采用将注意力模块嵌入到人体姿态转换网络的方法，提升生成图像的质量：将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像；构建源人体图像中所有语义风格的自注意力模块；构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块，且利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图；将自注意力模块和交叉注意力模块嵌入到生成器中，训练一个生成对抗网络，实现人体姿态转换，显著地提高图像质量，方法简单，效率高，较好地解决了由于源人体图像和目标姿态图像之间缺乏高效融合导致生成图像质量差的问题。 [0006]本发明的目的是这样实现的： [0007]一种基于注意力机制的人体姿态转换方法，其特点是在将注意力模块嵌入到人体姿态转换网络，将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像；构建源人体图像中所有语义风格的自注意力模块；构建源人体图像中所有语义风格与目标姿态图像之间的交叉注意力模块，且利用交叉注意力模块中的交叉注意力矩阵生成目标语义分割图；将自注意力模块和交叉注意力模块嵌入到生成器中，训练一个生成对抗网络，实现人体姿态转换，具体包括以下步骤： [0008]步骤1：将源人体图像和目标姿态图像送入生成器转换为源人体图像在目标姿态图像下的目标人体图像； [0009]步骤2：构建源人体图像中所有语义风格的自注意力模块；说　明　书 1/6 页 3 CN 115393890 A 3

专利 一种基于注意力机制的人体姿态转换方法

专利一种基于注意力机制的人体姿态转换方法