全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111676323.9 (22)申请日 2021.12.31 (71)申请人 广西慧云信息技 术有限公司 地址 530000 广西壮 族自治区南宁市高新 区创新路23号9号楼三层 (72)发明人 苏家仪 韦光亮 王筱东 朱燕红  莫振东 顾小宁  (74)专利代理 机构 南宁东之智专利代理有限公 司 45128 专利代理师 汪治兴 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/771(2022.01) G06V 20/68(2022.01)G06V 10/82(2022.01) G06V 10/70(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (54)发明名称 一种解决农作物病虫害样本不均衡问题的 图像识别方法 (57)摘要 本发明涉及病虫害识别领域, 具体涉及一种 解决农作物病虫害样本不均衡问题的图像识别 方法。 本发 明利用当前有 标注数据集进行模型训 练, 经过模型验证选出当前最佳模型, 对无标注 数据集的图片进行若干次图像增强, 得到增强后 的图像进行推理并筛选得到无标注 图像的识别 结果, 将识别结果输入至样本选择策略中, 根据 样本选择策略判断是否 保留该结果, 若保留则生 成伪标签, 并移动到当前有标注数据集中, 继续 对新的有标注数据集进行训练, 按此流程进行迭 代学习, 直到准确率不再提升为止。 本发明可降 低长尾分布影 响, 通过迭代学习提升尾部类别召 回率和精确率的同时不影 响头部类别识别效果, 仅采用单模 型进行推理且不引入额外的网络层, 对推理速度无影响。 权利要求书2页 说明书6页 附图1页 CN 114677553 A 2022.06.28 CN 114677553 A 1.一种解决农作物病虫害样本不均衡问题的图像识别方法, 其特征在于: 包括以下步 骤: 步骤S1, 制作有标注数据集: 收集农作物病虫害图片数据, 用矩形框标注出病虫害的位 置, 构成有标注数据集; 按一定比例将有标注数据集划分为训练集、 验证集与测试集; 步骤S2, 模型训练: 构 建目标检测模型, 并采用构 建的目标检测模型对步骤S1的数据集 中的训练集进行训练, 每一轮训练结束输出一个中间目标检测模型; 步骤S3, 模型验证: 将步骤S1中的验证集 图像输入到步骤S2中训练的中间模型进行模 型验证, 选出识别准确率 最高的中间目标检测模型作为当前最佳目标检测模型; 步骤S4, 制作无 标注数据集: 收集海量农作物病虫害图片数据, 作为无 标注数据集; 步骤S5, 图像增 强: 对步骤S4中的无标注数据集的每张原始图片进行数据增 强得到增 强后的N张图片, 并与对应的原 始图片合并得到N+1张组合图片作为 一组待处 理数据; 步骤S6, 无标注数据模型推理: 将步骤S5中的每组待处理数据分别输入至步骤S3中的 当前最佳目标检测模型进行推理, 得到N+1个识别结果, 对每个识别 结果分别进行后处理, 并将每个后处理过的识别结果进行叠加, 通过非极大值抑制算法对叠加后的结果进行筛 选, 最终得到无 标注数据的识别结果; 步骤S7, 样本选择: 根据样本选择策略对步骤S6中的无标注数据识别结果进行判断, 决 定是否保留该识别结果, 若保留则从步骤S4中的无标注数据集中选择该识别结果对应的原 始图片作为 新样本; 步骤S8, 新数据生成: 对步骤S7中的新样本按步骤S1的有标注数据集的矩形框标注方 式生成非人工标注的伪标签, 并将伪标签和步骤S4的无标注数据集中对应的原始图片作为 新数据, 对所有新数据按一定比例放入步骤S1的有标注数据集中的训练集、 验证集与测试 集中, 同时移除步骤S4的无 标注数据集中对应的原 始图片; 步骤S9, 步骤S1中有标注数据 集中加入步骤S8新生成的数据后, 继续按步骤S1 ‑S8的流 程进行迭代学习, 若步骤S 3中最佳目标检测模 型的准确率不再提升, 则结束迭代学习, 得到 最终的目标检测模型; 步骤S10, 有标注数据模型推理: 将步骤S1中有标注数据集的测试集输入至步骤S9得到 的最终的目标检测模型进行模型推理, 得到测试集经迭代学习优化后的识别结果。 2.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法, 其 特征在于: 所述步骤S1 中按0.8: 0.1: 0.1的比例将有 标注数据集划分为训练集、 验证集与测 试集。 3.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法, 其 特征在于: 所述步骤S2中的目标检测模 型为采用Y OLOv5目标检测算法的YOLOv5l6网络结构 模型。 4.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法, 其 特征在于: 所述步骤S5中的数据增强包括4种方式: 随机水平翻转、 随机垂直翻转、 随机旋 转、 随机增 加亮度, 则N =4。 5.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法, 其 特征在于: 所述 步骤S7中的样本 选择策略包括以下步骤: 步骤S71, 头尾部划分: 对步骤S1中的有标注数据集的训练集进行样本数量统计, 有标权 利 要 求 书 1/2 页 2 CN 114677553 A 2注数据集中共有C个病虫害类别, 计算每个病 虫害类别c的标注数量Nc, c∈{1,2, …,C}, 标 注数量总数为 Ntotal, 平均标注数量 Nm, 则: 将标注数量大于Nm的类别划分为头部类别, 否则将标注数量小于等于Nm划分为尾部类 别; 统计头 部类别标注总数Nh, 尾部类别标注总数Nt, 则: Nh+Nt=Ntotal; 步骤S72, 头尾部判断: 对步骤S6中的无标注数据的识别结果中每一个矩形框对应的类 别进行头尾部 分类, 分别得到头部和尾部的数量, 若头部的数量大于尾部的数量, 则该样本 属于头部样本, 否则属于尾部样本; 步骤S73, 新样本候选: 对于判断为头部的样本, 计算该样本识别结果中头部类别的可 信度均值, 若头部类别的可信度均值大于头部可信度 阈值Th, 则将该样本加入头部新样本 候选队列Qh中; 对于判断为尾部的样本, 计算尾部类别的可信度均值, 若尾部类别的可信度 均值大于尾部可信度阈值Tt, 则将该样本加入尾部新样本候选队列Qt中; 步骤S74, 新样本选择: 对于头部新样本候选队列Qh, 按可信度进行降序排序, 得到排序 后的头部新样本候选队列Qh', 从排序后的头部新样本候选队列Qh'中选择头部占比为Ph的 样本作为头部新样本; 对于尾部新样本候选队列Qt, 按可信度进行降序排序, 得到排序后的 尾部新样本候选队列Qt', 从排序后的尾部新样本候选队列Qt'中选择尾部占比为Pt的样本 作为尾部新样本; 头 部新样本和尾部新样本组合 为当前新样本 。 6.根据权利要求5所述的一种解决农作物病虫害样本不均衡问题的图像识别方法, 其 特征在于: 所述头 部可信度阈值Th的取值范围为0.9≤Th<1。 7.根据权利要求5所述的一种解决农作物病虫害样本不均衡问题的图像识别方法, 其 特征在于: 所述尾部可信度阈值Tt的取值范围为0.9≤Tt<1。 8.根据权利要求5所述的一种解决农作物病虫害样本不均衡问题的图像识别方法, 其 特征在于: 所述头 部占比Ph的计算方式为 9.根据权利要求5所述的一种解决农作物病虫害样本不均衡问题的图像识别方法, 其 特征在于: 所述尾部占比Pt的计算方式为 权 利 要 求 书 2/2 页 3 CN 114677553 A 3

.PDF文档 专利 一种解决农作物病虫害样本不均衡问题的图像识别方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种解决农作物病虫害样本不均衡问题的图像识别方法 第 1 页 专利 一种解决农作物病虫害样本不均衡问题的图像识别方法 第 2 页 专利 一种解决农作物病虫害样本不均衡问题的图像识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:44:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。