(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210409195.X
(22)申请日 2022.04.19
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 禹鑫燚 曹铭洲 周晨 欧林林
魏岩 周利波
(74)专利代理 机构 杭州天正专利事务所有限公
司 33201
专利代理师 舒良
(51)Int.Cl.
G06T 7/00(2017.01)
G06N 3/12(2006.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)G06K 9/62(2022.01)
G06V 10/762(2022.01)
(54)发明名称
基于DCT-YOLOv5模型的实时番茄姿态检测
方法
(57)摘要
本发明涉及基于DCT ‑YOLOv5模型的实时番
茄姿态检测方法。 包括如下步骤: 步骤一: 设计
DCT‑YOLOv5主干网络及损失函数; 步骤二: 通过
人工拍摄的方式对不同角度, 不同大小, 不同生
长条件的番茄进行图像数据采集; 步骤三: 制作
番茄数据集并进行训练; 步骤四: 将DCT ‑YOLOv5
压缩模型部署到AGXXav ier嵌入式系统上并使用
TensorRT进行模型推理加速; 步骤五: 使用
realsense摄像头在 AGX Xavier上进行实时番茄
检测。 本发明用于部署在NVIDIA JetsonAGX
Xavier嵌入式开发板 上进行实时番茄检测, 在保
证检测精度的同时, 确保了检测的实时性以及模
型运算的高效率。
权利要求书3页 说明书7页 附图3页
CN 114782360 A
2022.07.22
CN 114782360 A
1.基于DCT ‑YOLOv5模型的实时番 茄姿态检测方法, 其特 征在于: 包括如下步骤:
步骤1: 设计DCT ‑YOLOv5主干网络及损失函数;
步骤2: 通过人工拍摄的方式对不同角度, 不同大小, 不同生长条件的番茄进行图像数
据采集;
步骤3: 制作番 茄数据集并进行训练;
步骤4: 将DCT ‑YOLOv5压缩模型部署到AGX Xavier嵌入式系统上并使用TensorRT进行
模型推理加速;
步骤5: 使用realsense摄 像头在嵌入式开发板AGX Xavier上进行实时番 茄检测。
2.根据权利要求1所述的基于DCT ‑YOLOv5模型的实时番茄姿态检测方法, 其特征在于:
所述步骤1具体步骤如下:
1.1): DCT ‑YOLOv5主干网络设计;
1.1.1)借鉴ResNet网络中 的shortcut设计加深DCT ‑YOLOv5主体网络的深度, 通过设定
卷积层中的步长参数实现卷积层的下采样。 除最后三层用于预测的卷积层之外, 其余的卷
积层后都添加Batch Normaliz ation(BN)操作, 并在BN层接LeakyRelu激活函数。 使用动态
卷积消除多变光照影响。 网络中采用CSP模块先将 基础层的特征映射划分为两部 分, 然后通
过跨阶段层次结构将它们合并, 在减少了计算量的同时保证准确率。 借鉴FPN和PAN网络的
模型结构, 通过上采样操作对网络输出的三个特征图进行concat融合, 达到多尺度预测的
目的。 使用CA注意力机制, 融合纵向和横向注 意力, 辨别图像中的干扰枝干。 加入tranblock
模块, 捕获图像全局注意力, 准确识别番 茄的生长姿态;
1.1.2): 使用用K ‑meas聚类方法和遗传算法, 对真实框进行聚类, 得到九种锚框, 每三
种锚框对应一个尺度的特 征图。 此方法的目的是加速预测框的回归;
1.1.3): 在网络前向推断中预测公式如下 所示:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
bx,by是预测框在对应尺寸的特征图上的相对中心坐标值。 bw,bh是预测框的宽和高。 cx,
cy是输出特征图grid cell的左上角坐标, pw,ph为锚框的宽和高。 tx,ty为预测的坐标偏移
值, tw,th为预测的尺度缩放 倍数;
1.1.4): 动态卷积实现公式如下 所示:
βk(x)为网络计算出的k个卷积核的权重, 权重大小在0与1之间, 且总和为1。
表示每
个卷积核,
表示每个卷积的偏置。
表示最终的卷积核,
表示最终的偏置。 g表示BN权 利 要 求 书 1/3 页
2
CN 114782360 A
2层以及激活函数操作, y表示经 过动态卷积后输出的特 征图;
1.1.5): CA 注意力机制实现公式如下 所示:
xc(i,j)是特征图中(i,j)位置的特征值, H,W是特征图的长和 宽, zc是计算出的特征图
中每一个位置的信息嵌入。 这一步使 该模块能够捕捉两个方向上的具有精确位置信息的特
征。 T1,T2为两个线性连接层, 可以学习到特征图中重要的通道, RELU为激活函数, σ为
sigmoid激活函数。 X为原特征图,
为经过处理后的特征图。 加权后的特征图对横向与纵向
信息更加敏感。 有利于模型对枝干与番 茄生长姿态的识别。
1.1.6): t ransblock结构实现公式如下 所示:
Q=WQ(W(x)),K=WK(W(x)),V=WV(W(x)) (11)
y=W(x)+MLP(Dropout(MultiHead(Q,K,V) )+W(x)) (12)
W(x)为输入特征图经过一个卷积层, 之后经过WQ,WK,WV三个不同的全连接层, 得到查询
向量Q,键向量K,值向量V。 y为一个Transformer Encoder结构的输出, 在tran sblock中可以
堆叠任意个Tran sformer Encoder。 将最终Tran sformer Encoder结构的输出与输入特征图
进行concat连接即可 得到最终的输出 特征图。
1.2): 设计DCT ‑YOLOv5损失函数;
1.2.1): 设计目标置信度损失函数如下 所示:
其中
网络输出ci通过Sigmo id函数得到
1.2.2): 设计目标类别损失函数如下 所示:
其中,
网络输出ci通过Sigmoid函数得到
表示目标检测框i中存在
第j类目标的Sigmo id概率;
1.2.3): 设计目标定位损失函数如下:
其中:
权 利 要 求 书 2/3 页
3
CN 114782360 A
3
专利 基于DCT-YOLOv5模型的实时番茄姿态检测方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:35:20上传分享