专利一种基于深度学习的橙子采摘机器人目标实时检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210874239.6 (22)申请日 2022.07.21 (71)申请人重庆邮电大学地址 400065 重庆市南岸区黄桷垭崇文路2 号 (72)发明人郑太雄　刘斯宇　杨新琴　 (74)专利代理机构北京同恒源知识产权代理有限公司 1 1275 专利代理师方钟苑 (51)Int.Cl. G06V 20/68(2022.01) G06V 20/10(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的橙子采摘机器人目标实时检测方法 (57)摘要本发明涉及一种基于深度学习的橙子采摘机器人目标实时检测方法，属于目标实时检测领域，采用YOL Ov5s作为橙子目标实时检测的框架，将改进的CSP ‑Darknet‑s作为骨干网络对橙子图像进行特征图提取；将特征图输入空间金字塔池化网络进行最大池化，得到固定大小的最终输出特征图；采用BiFPN架构作为颈部网络，对特征图进行多尺度融合；将多尺度融合特征图输入到检测网路中，经过卷积层后，输出三个尺度的特征图；再输入Bou nding Box损失函数来预测边界和原始图像中目标的类别并标记；使用非极大值抑制来处理步骤S5中重复冗余的预测框，保留置信度最高的预测框信息，得到最终预测结果。权利要求书2页说明书6页附图4页 CN 115240188 A 2022.10.25 CN 115240188 A 1.一种基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：包括以下步骤： S1：采用YOLOv5s作为橙子目标实时检测的框架，将改进的CSP ‑Darknet‑s作为骨干网络对橙子图像进行特征图提取，所述改进的CSP ‑Darknet‑s为：将切片结构、改进的瓶颈层和CBAM注意力机制模块进行结合得到的网络模型； S2：将所述特征图输入空间金字塔池化网络进行最大池化，得到固定大小的最终输出特征图； S3：采用加权双向特征金字塔网络BiFPN架构作为颈部网络，将所述最终输出特征图输入到BiFPN中，对特征图进行多尺度融合； S4：将多尺度融合特征图输入到检测网路中，经过卷积层后，输出三个尺度的特征图； S5：将三个尺度的特征图输入Boundin g Box损失函数来预测边界和原始图像中目标的类别并标记； S6：使用非极大值抑制来处理步骤S5中重复冗余的预测框，保留置信度最高的预测框信息，得到最终预测结果。 2.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：在步骤S1之前对橙子进行图像采集和图像增强，所述图像采集包括以下情况：橙子被树叶遮挡，橙子被树枝遮挡、混合遮挡、水果之间重叠、自然光角度、逆光角度、侧光角度；所述图像增强包括图像亮度增强和降低、水平镜像、垂直镜像、多角度旋转。 3.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S1 中，所述切片结构的实施步骤为：首先输入608 ×608×3的图像，随后进行切片操作，从而得到304×304×12的特征图，随后再经过一次32个卷积核的卷积操作，最后输出 304×304×32的特征图；所述改进的瓶颈层为1个卷积核大小为1 ×1的卷积层与一个Bottleneck模块和一个卷积核大小为1 ×1的卷积层连接起来的残差网络架构，瓶颈模块的最终输出是 BottleneckCS P‑s部分的输出和通过残差结构的初始输入的相加；所述CBAM注意力机制模块融合两种注意力机制，先是channel attention，然后是 spatial attention，使用CBAM提取需要注意的区域，以减少获取其他无关的信息。 4.根据权利要求3所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S1中， CBA M注意力机制模块融合两种注意力机制，先是channel attention，然后是spatial attention，具体流程为：将输入的特征图F(H ×W×C)分别经过基于width和height的全局最大池化和全局平均池化，得到两个1×1×C的特征图；接着，再将两个1 ×1×C的特征图分别送入一个两层的神经网络，第一层神经元个数为 C/r，其中r为减少率，激活函数为Relu，第二层神经元个数为C，两层的神经网络是共享的；而后，将MLP输出的特征进行基于element ‑wise的加和操作，再经过sigmoid激活操作，生成最终的c hannel attention feature，即M_c；最后，将M_c和输入特征图F做element ‑wise乘法操作，生成Spatial attention模块需要的输入特征；将Channel attention模块输出的特征图F ’作为Spatial attention模块的输入特征权　利　要　求　书 1/2 页 2 CN 115240188 A 2图，首先做一个基于channel的全局最大池化和全局平均池化，得到两个H×W×1的特征图；然后将两个H ×W×1的特征图基于 channel做通道拼接操作；接着经过一个7×7卷积操作，降维为1个c hannel，即H×W×1；再经过sigmoid生成spatial attention feature，即M_s；最后将M_s和M_c做乘法，得到最终生成的特征。 5.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S2中，金字塔池化网络通过一个1 ×1的卷积对步骤S1得到的特征图进行卷积操作，并通过三个平行的最大池化层进行深度连接得到最终输出特征图。 6.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S3中， BiFPN通过引入可学习的权值来学习不同输入特征的重要性，同时反复应用自顶向下和自下而上的多尺度特征融合，以聚合不同分辨率的特征。 7.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S4中，将步骤S3得到的多尺度融合特征图输入到检测网路中，经过卷积层后，输出76×76、 38×38和19×19维的特征图，对应检测小目标、中目标、大目标。 8.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S5中，将步骤S4得到的三个尺度的特征图采用CIOU_Loss做Bounding Box的损失函数来预测边界和原始图像中目标的类别并标记， CIOU_L oss损失函数的计算公式为：其中α 表示预测框和目标框的长宽比， v表示衡量长宽比一致的参数， IOU表示真实框和预测框之间的交并集， Distance_22表示最小外接矩形对角线距离， wgt、 hgt表示真实框的宽度和高度， wp、 hp表示预测框的宽度和高度。 9.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法，其特征在于：步骤S6中，采用DIOU_NMS来筛选预测框， DIOU_NMS的表达式如下所示：其中表示高置信度候选框，是遍历各个候选框与置信度高的重合情况。权　利　要　求　书 2/2 页 3 CN 115240188 A 3

专利 一种基于深度学习的橙子采摘机器人目标实时检测方法

专利一种基于深度学习的橙子采摘机器人目标实时检测方法