专利一种基于伪标签优化的行人重识别方法、系统及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211033566.5 (22)申请日 2022.08.26 (71)申请人三维通信股份有限公司地址 310057 浙江省杭州市滨江区火炬大道581号 (72)发明人韩崇　徐龙华　严军荣　赵忠　 (74)专利代理机构杭州伍博专利代理事务所 (普通合伙) 33309 专利代理师熊小芬 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06V 10/762(2022.01) G06V 10/62(2022.01)G06V 10/56(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于伪标签优化的行人重识别方法、系统及存储介质 (57)摘要本发明公开了一种基于伪标签优化的行人重识别方法、系统及存储介质，其方法包括步骤：提取行人训练数据的特征并进行聚类；根据聚类结果分配伪标签；划分和优化伪标签；根据最难查询实例与聚类特征的相似性计算聚类特征损失并以此更新伪标签；根据伪标签识别行人类别。本发明解决了相关技术中无人工标注数据聚类生成的伪标签不准确导致无监督行人重识别准确率低的问题。权利要求书3页说明书18页附图4页 CN 115439887 A 2022.12.06 CN 115439887 A 1.一种基于伪标签优化的行人重识别方法，其特征在于，包括：提取行人训练数据的特征并进行聚类；根据聚类结果分配伪标签；划分和优化伪标签；根据最难查询实例与聚类特征的相似性计算聚类特征损失并以此更新伪标签；根据伪标签识别行人类别。 2.根据权利要求1所述的基于伪标签优化的行人重识别方法，其特征在于，所述提取行人训练数据的特征并进行聚类，包括步骤：获取行人不同状态下的训练数据，记为样本集D＝(x1， x2， x3，…， xm)；所述行人不同状态包括常规行走、转弯、停顿、横移的任一项或多项组合；所述训练数据包括视频数据或图像数据；提取数据特征，即将训练数据经过卷积神经网络提取特征向量；根据数据特征划分聚类簇。 3.根据权利要求2所述的基于伪标签优化的行人重识别方法，其特征在于，所述根据数据特征划分聚类簇，包括步骤：初始化核心对象集合初始化聚类簇数S＝0，初始化未访问样本集合Γ＝D，簇划分通过距离度量方式获得样本xj的ε邻域子样本Nε(xj)；如果子样本集样本个数满足︱ Nε(xj)︱ ≥Minpts，则将样本xj加入核心对象样本集合： Ω ＝Ω∪{xj}；如果核心对象集合则聚类结束，否则在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ωcur＝{o}，初始化类别序号s＝s+1，初始化当前簇样本集合Ci＝{o}，更新未访问样本集合Γ＝Γ ‑{o}；如果当前簇核心对象队列则当前聚类簇Ci生成完毕，更新簇划分C＝{C1， C2， ...， CN}，更新核心对象集合Ω＝Ω ‑CN；否则更新核心对象集合Ω＝Ω ‑Ci；在当前簇核心对象队列Ωcur中取出一个核心对象o ′，通过邻域距离阈值ε找出所有的ε 邻域子样本集Nε(o′)，令Δ＝N∈(o′)∩Γ，更新当前簇样本集合Ci＝Ci∪Δ，更新未访问样本集合Γ＝Γ ‑Δ，更新Ωcur＝Ωcur∪(Δ∩Ω)‑o′；重复执行上述步骤，直到聚类簇生成完毕，簇的划分为C＝{C1， C2， ...CN}。 4.根据权利要求3所述的基于伪标签优化的行人重识别方法，其特征在于，所述根据聚类结果分配伪标签，包括步骤：根据聚类簇将训练数据划分为集群，每个集群表示一个行人类别；为每个集群分配伪标签，训练数据集合表示为：其中D表示训练数据的集合， m表示训练数据的数量， xi表示第i张图片， yi表示第i张图片的伪标签。 5.根据权利要求4所述的基于伪标签优化的行人重识别方法，其特征在于，所述划分和优化伪标签，包括步骤：将伪标签分为可信任标签部分和含有噪声标签部分；所述可信任标签部分表示为集合 X＝{(xb,yb):b∈(1, …,B)}，含有噪声标签部分表示为集合U＝{ub:b∈(1,…,B)}， D＝X∪权　利　要　求　书 1/3 页 2 CN 115439887 A 2U；基于置信度策略和/或度量策略划分伪标签；使用标签平滑和半监督学习方法优化伪标签。 6.根据权利要求5所述的基于伪标签优化的行人重识别方法，其特征在于，所述基于置信度策略和/或度量策略划分伪标签包括基于置信度策略划分伪标签、基于度量策略划分伪标签、结合置信度策略和度量策略划分伪标签的任一项；所述基于置信度策略划分伪标签是利用基于无监督分类器的置信度策略，对于训练样本(x,y)∈D，当伪标签y的置信度评分大于设定的阈值г1时，将其对应的图片及伪标签加入到集合X中，否则将加入到集合U中；所述基于度量策略划分伪标签是采用额外的嵌入网络hψ，对于训练样本(x,y)∈D，根据 k近邻分类方法计算y′＝k‑NN(hψ(x))，当arg max(y)＝argmax(y ′)时，判定当前伪标签与hψ 的分类结果吻合，将该伪标签加入集合X中，否则加入集合U中；所述结合置信度策略和度量策略划分伪标签是当基于置信度策略和基于度量策略都判定将伪标签应该加入集合X中时，则该伪标签加入集合X中，否则加入集合U中。 7.根据权利要求6所述的基于伪标签优化的行人重识别方法，其特征在于，所述使用标签平滑和半监督学习方法优化伪标签，包括步骤：对划分的集合X和集合U中的每一个伪标签进行标签平滑操作；用MixMatc h方法扩充两个数据集合；引入协同训练网络对两个分类预测网络进行并行训练，通过合并两个分类预测网络的预测产生可靠标签；使用半监督学习模型训练两个分类预测网络的单独损失并以此计算最终损失函数；更新集合X和集合U。 8.根据权利要求7所述的基于伪标签优化的行人重识别方法，其特征在于，所述根据最难查询实例与聚类特征的相似性计算聚类特征损失并以此更新伪标签，包括步骤：使用集群中随机实例的特征初始化集群特征；选择训练数据集合中最难辨认的样本作为最难查询实例q并以此更新聚类特征向量；根据最难查询实例q和当前所有集群聚类特征的相似性计算对比损失函数为：其中c+是查询实例q的正聚类特征向量， τ是事先设定的参数，最难查询实例q与正聚类特征c+的相似性与损失函数值成反比，最难查询实例q与其他所有聚类特征ci的相似性与损失函数值成正比；循环训练网络直到损失函数收敛，以此得到更新后的伪标签。 9.一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使计算机执行如权利要求1 ‑8任一项所述的方法。 10.一种基于伪标签优化的行人重识别系统，其特征在于包括：数据获取单元；处理器；存储器；以及权　利　要　求　书 2/3 页 3 CN 115439887 A 3

专利 一种基于伪标签优化的行人重识别方法、系统及存储介质

专利一种基于伪标签优化的行人重识别方法、系统及存储介质