专利一种衣着识别方法、系统、介质及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210721153.X (22)申请日 2022.06.24 (71)申请人暨南大学地址 510632 广东省广州市天河区黄埔大道西601号 (72)发明人黄斐然　李志颖　陈唯彬　赵容　吴永东　陈志彬　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师郑秋松 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种衣着识别方法、系统、介质及设备 (57)摘要本发明公开了一种衣着识别方法、系统、介质及设备，该方法包括下述步骤：获取多场景下的摄像头视频，将其中的黑白视频着色，整合得到全彩色的图像数据库，对图像数据库进行解帧和标注，构建衣着数据集，基于YOLOv5模型构建衣着识别网络，在主干网络层尾部增加坐标注意力模块，在Neck网络层将YOL Ov5模型中的拼接模块替换为Concat_bifpn模块；基于衣着数据集训练衣着识别网络；进行复合检测，基于YOLOv5模型对测试集中的人物进行识别，裁剪提取得到人像结果集，输入衣着识别网络得到衣着识别结果图像集。本发明解决了摄像头环境下目标检测难的问题，实现了精度与速度平衡的高效目标检测效果。权利要求书4页说明书11页附图3页 CN 115100681 A 2022.09.23 CN 115100681 A 1.一种衣着识别方法，其特征在于，包括下述步骤：获取多场景下的摄像头视频，划分为黑白视频以及非黑白视频，将黑白视频通过着色网络进行颜色的填充，将着色后的视频与非黑白视频整合得到全彩色的图像数据库；对全彩色的图像数据库进行解帧，对有效数据图片进行标注，构建衣着数据集；基于YOLOv5模型构建衣着识别网络，设有依次连接的主干网络层、 Neck网络层和输出层；在主干网络层尾部增加坐标注意力模块，坐标注意力模块采用坐标注意力机制获取特征信息；在Neck网络层将YOLOv5模型中的拼接模块替换为融合多尺度特征融合算法的Concat_ bifpn模块，用于融合浅层网络跟深层网络的特征，通过预设可学习的权重学习不同输入特征的重要性； Neck网络层设有多个Concat_bifpn模块，包括第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块和第六融合模块；输出层设有多个预测头，包括第一预测头、第二预测头、第三预测头和第四预测头；第一融合模块将自身上一层输出与主干网络层输出进行融合，融合后经过下一层输出至第五融合模块；第二融合模块将自身上一层输出与主干网络层输出进行融合，融合后经过下一层输出至第四融合模块；第三融合模块将自身上一层输出与主干网络层输出进行融合，融合后经过下一层输出至输出层的第一预测头，输出第一尺度特征；第四融合模块将自身上一层输出、第二融合模块下一层输出以及主干网络层输出进行融合，融合后经过下一层输出至输出层的第二预测头，输出第二尺度特征；第五融合模块将自身上一层输出、第一融合模块下一层输出以及主干网络层输出进行融合，融合后经过下一层输出至输出层的第三预测头，输出第三尺度特征；第六融合模块将自身上一层输出与主干网络层输出进行融合，融合后经过下一层输出至输出层的第四预测头，输出第四尺度特征；坐标注意力模块经过卷积层和上采样层后输出特征至第一融合模块；基于衣着数据集训练衣着识别网络；进行复合检测，基于YOLOv5模型对测试集中的人物进行识别，裁剪提取得到人像结果集，将人像结果集输入衣着识别网络进行识别，得到衣着识别结果图像集。 2.根据权利要求1所述的衣着识别方法，其特征在于，所述着色网络包括实例着色网络和全图像着色网络，分别进行实例着色和全图像着色，实例着色网络和全图像着色网络对应层级进行端到端训练；实例着色网络和全图像着色网络提取得到实例图像特征和全图像特征，经过多层卷积层训练得到全图像权重与实例权重，对实例图像特征和实例权重进行结合形成全图像特征大小，对全图像特征和每组实例图像特征分别按照对应权重进行加权融合，获得着色后的图像，进而得到着色后的视频图像。 3.根据权利要求1所述的衣着识别方法，其特征在于，所述坐标注意力模块采用坐标注意力机制获取特征信息，具体计算过程为：权　利　要　求　书 1/4 页 2 CN 115100681 A 2坐标注意力模块对每个输入特征从维度h和 w分解，分解后的张量分别经过全局池化处理，生成张量Xh和张量Xw，在卷积块中输入连接的张量Xh和Xw生成一个编码的Y，具体表示为：其中，表示连接Xw和Xh， *表示卷积运算， G和f分别表示归一化和激活函数， W 表示卷积滤波器；再次拆分Y得到和，具体表示为：；其中，Split()表示Split函数，用于分割字符串；卷积并激活和，最终输出为：其中， F表示卷积，表示激活函数。 4.根据权利要求1所述的衣着识别方法，其特征在于， Concat_bifpn模块通过预设可学习的权重学习不同输入特征的重要性，每一个输入层的权重具体表示为：其中，Xi表示每一层的输入， Wi表示每一个输入层的权重，表示常数；输出结果表示为：其中， Yfin表示输出结果，Conv表示卷积操作，Relu是激活函数， N表示输入层数。 5.根据权利要求1所述的衣着识别方法，其特征在于，第一融合模块将主干网络层第八层输出与第一融合模块上一层上采样层输出进行融合，融合后输出至第一融合模块下一层 C3模块，第五融合模块将第一融合模块下一层C3模块输出、主干网络层第八层输出以及第五融合模块上一层卷积层输出进行融合，融合后输出至第五融合模块下一层C3模块，并经过输出层的第三预测头输出第三尺度特征；第二融合模块将主干网络层第六层输出与第二融合模块上一层上采样层输出进行融合，并输出至第二融合模块下一层C 3模块；第四融合模块将主干网络层第六层输出、第二融合模块下一层C3模块输出以及第四融合模块上一层卷积层输出进行融合，并输出至第四融合模块下一层C3模块，并经过输出层的第二预测头输出第二尺度特征；第三融合模块将主干网络层第四层输出与第三融合模块上一层上采样层输出进行融合，并输出至第三融合模块下一层C 3模块，并经过输出层的第一预测头输出第一尺度特征；第六融合模块将主干网络层第十一层输出与第六融合模块上一层卷积层进行融合，并输出至第六融合模块下一层C 3模块，并经过输出层的第四预测头输出第四尺度特征；所述C3模块包括3个卷积层加上Bot tleneckCS P模块。 6.一种衣着识别系统，其特征在于，包括：视频获取模块、视频划分模块、着色模块、图权　利　要　求　书 2/4 页 3 CN 115100681 A 3

专利 一种衣着识别方法、系统、介质及设备

专利一种衣着识别方法、系统、介质及设备