专利一种解决农作物病虫害样本不均衡问题的图像识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111676323.9 (22)申请日 2021.12.31 (71)申请人广西慧云信息技术有限公司地址 530000 广西壮族自治区南宁市高新区创新路23号9号楼三层 (72)发明人苏家仪　韦光亮　王筱东　朱燕红　莫振东　顾小宁　 (74)专利代理机构南宁东之智专利代理有限公司 45128 专利代理师汪治兴 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/771(2022.01) G06V 20/68(2022.01)G06V 10/82(2022.01) G06V 10/70(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (54)发明名称一种解决农作物病虫害样本不均衡问题的图像识别方法 (57)摘要本发明涉及病虫害识别领域，具体涉及一种解决农作物病虫害样本不均衡问题的图像识别方法。本发明利用当前有标注数据集进行模型训练，经过模型验证选出当前最佳模型，对无标注数据集的图片进行若干次图像增强，得到增强后的图像进行推理并筛选得到无标注图像的识别结果，将识别结果输入至样本选择策略中，根据样本选择策略判断是否保留该结果，若保留则生成伪标签，并移动到当前有标注数据集中，继续对新的有标注数据集进行训练，按此流程进行迭代学习，直到准确率不再提升为止。本发明可降低长尾分布影响，通过迭代学习提升尾部类别召回率和精确率的同时不影响头部类别识别效果，仅采用单模型进行推理且不引入额外的网络层，对推理速度无影响。权利要求书2页说明书6页附图1页 CN 114677553 A 2022.06.28 CN 114677553 A 1.一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：包括以下步骤：步骤S1，制作有标注数据集：收集农作物病虫害图片数据，用矩形框标注出病虫害的位置，构成有标注数据集；按一定比例将有标注数据集划分为训练集、验证集与测试集；步骤S2，模型训练：构建目标检测模型，并采用构建的目标检测模型对步骤S1的数据集中的训练集进行训练，每一轮训练结束输出一个中间目标检测模型；步骤S3，模型验证：将步骤S1中的验证集图像输入到步骤S2中训练的中间模型进行模型验证，选出识别准确率最高的中间目标检测模型作为当前最佳目标检测模型；步骤S4，制作无标注数据集：收集海量农作物病虫害图片数据，作为无标注数据集；步骤S5，图像增强：对步骤S4中的无标注数据集的每张原始图片进行数据增强得到增强后的N张图片，并与对应的原始图片合并得到N+1张组合图片作为一组待处理数据；步骤S6，无标注数据模型推理：将步骤S5中的每组待处理数据分别输入至步骤S3中的当前最佳目标检测模型进行推理，得到N+1个识别结果，对每个识别结果分别进行后处理，并将每个后处理过的识别结果进行叠加，通过非极大值抑制算法对叠加后的结果进行筛选，最终得到无标注数据的识别结果；步骤S7，样本选择：根据样本选择策略对步骤S6中的无标注数据识别结果进行判断，决定是否保留该识别结果，若保留则从步骤S4中的无标注数据集中选择该识别结果对应的原始图片作为新样本；步骤S8，新数据生成：对步骤S7中的新样本按步骤S1的有标注数据集的矩形框标注方式生成非人工标注的伪标签，并将伪标签和步骤S4的无标注数据集中对应的原始图片作为新数据，对所有新数据按一定比例放入步骤S1的有标注数据集中的训练集、验证集与测试集中，同时移除步骤S4的无标注数据集中对应的原始图片；步骤S9，步骤S1中有标注数据集中加入步骤S8新生成的数据后，继续按步骤S1 ‑S8的流程进行迭代学习，若步骤S 3中最佳目标检测模型的准确率不再提升，则结束迭代学习，得到最终的目标检测模型；步骤S10，有标注数据模型推理：将步骤S1中有标注数据集的测试集输入至步骤S9得到的最终的目标检测模型进行模型推理，得到测试集经迭代学习优化后的识别结果。 2.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述步骤S1 中按0.8： 0.1： 0.1的比例将有标注数据集划分为训练集、验证集与测试集。 3.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述步骤S2中的目标检测模型为采用Y OLOv5目标检测算法的YOLOv5l6网络结构模型。 4.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述步骤S5中的数据增强包括4种方式：随机水平翻转、随机垂直翻转、随机旋转、随机增加亮度，则N ＝4。 5.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述步骤S7中的样本选择策略包括以下步骤：步骤S71，头尾部划分：对步骤S1中的有标注数据集的训练集进行样本数量统计，有标权　利　要　求　书 1/2 页 2 CN 114677553 A 2注数据集中共有C个病虫害类别，计算每个病虫害类别c的标注数量Nc， c∈{1,2, …,C}，标注数量总数为 Ntotal，平均标注数量 Nm，则：将标注数量大于Nm的类别划分为头部类别，否则将标注数量小于等于Nm划分为尾部类别；统计头部类别标注总数Nh，尾部类别标注总数Nt，则： Nh+Nt＝Ntotal；步骤S72，头尾部判断：对步骤S6中的无标注数据的识别结果中每一个矩形框对应的类别进行头尾部分类，分别得到头部和尾部的数量，若头部的数量大于尾部的数量，则该样本属于头部样本，否则属于尾部样本；步骤S73，新样本候选：对于判断为头部的样本，计算该样本识别结果中头部类别的可信度均值，若头部类别的可信度均值大于头部可信度阈值Th，则将该样本加入头部新样本候选队列Qh中；对于判断为尾部的样本，计算尾部类别的可信度均值，若尾部类别的可信度均值大于尾部可信度阈值Tt，则将该样本加入尾部新样本候选队列Qt中；步骤S74，新样本选择：对于头部新样本候选队列Qh，按可信度进行降序排序，得到排序后的头部新样本候选队列Qh'，从排序后的头部新样本候选队列Qh'中选择头部占比为Ph的样本作为头部新样本；对于尾部新样本候选队列Qt，按可信度进行降序排序，得到排序后的尾部新样本候选队列Qt'，从排序后的尾部新样本候选队列Qt'中选择尾部占比为Pt的样本作为尾部新样本；头部新样本和尾部新样本组合为当前新样本。 6.根据权利要求5所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述头部可信度阈值Th的取值范围为0.9≤Th＜1。 7.根据权利要求5所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述尾部可信度阈值Tt的取值范围为0.9≤Tt＜1。 8.根据权利要求5所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述头部占比Ph的计算方式为 9.根据权利要求5所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述尾部占比Pt的计算方式为权　利　要　求　书 2/2 页 3 CN 114677553 A 3

专利 一种解决农作物病虫害样本不均衡问题的图像识别方法

专利一种解决农作物病虫害样本不均衡问题的图像识别方法