专利一种基于目标检测神经网络的声纳图像实时检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111664998.1 (22)申请日 2021.12.31 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人杨金晶　秦飞巍　谭成灏　於勤翔　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱月芬 (51)Int.Cl. G06V 20/05(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/762(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 5/00(2006.01) (54)发明名称一种基于目标检测神经网络的声纳图像实时检测方法 (57)摘要本发明公开了一种基于目标检测神经网络的声纳图像实时检测方法。本发明步骤：步骤 (1)、构建声呐图像数据集，并划分为训练集和测试集；步骤(2)、数据预处理：对构建的训练集和测试集进行降噪、数据归一化、全分辨率数据增广处理；步骤(3)、构建水下声呐图像实时检测网络；步骤(4)、基于训练集对声呐图像实时检测网络进行训练；步骤(5)、基于测试集验证声呐图像实时检测网络的准确性和实时性。本发明借鉴了 YOLO系列、 SSD与RetinaNet等网络的框架，设计并使用骨干网络，并最大限度增加输入信息量，通过数据扩充增加样本量，降噪预处理和设计损失函数等方法进行改进，以满足检测网络准确性的要求。最终设计了在保持速度优势的前提下并且提升了预测精度的So narDet系统。权利要求书2页说明书7页附图6页 CN 114219998 A 2022.03.22 CN 114219998 A 1.一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于包括如下步骤：步骤(1)、构建声呐图像数据集，并划分为训练集和测试集；步骤(2)、数据预处理：对构建的训练集和测试集进行降噪、数据归一化、全分辨率数据增广处理；步骤(3)、构建水下声呐图像实时检测网络，包括骨干网络、多尺度融合模块、 kmeans算法模块、目标检测模块以及Loss函数设计模块；骨干网络选取改进的darknet ‑53网络，预处理后训练集中的图像经过骨干网络处理后得到两张尺度不同的高通道维度低分辨率的特征图；多尺度融合模块对得到的两个尺度的特征图进行融合，得到融合特征图；使用kmeans 聚类模块对训练集数据中的标注框进行聚类，得到6个母先验框；通过母先验框的比例和位置随机生成多个先验框；目标检测模块基于kmeans聚类模块得到的先验框，对两个尺度的融合特征图进行预测，通过预测框坐标相对于先验框的四个偏移量，识别出融合特征图中声呐目标位置；步骤(4)、基于训练集对声呐图像实时检测网络进行训练；步骤(5)、基于测试集验证声呐图像实时检测网络的准确性和实时性。 2.根据权利要求1所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于步骤(1)具体实现如下：声呐图像数据集来自中船重工715所提供的数据集，将数据集按照8： 2分成训练集和测试集，并对训练集数据进行标注，其中训练集包含4002张，测试集包含1000张图片，目标检测物类别包含柱状、线状两种外形。 3.根据权利要求1所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于步骤(3)中的骨干网络具体结构如下：骨干网络使用darknet ‑53的前52层，即去除全连接层并保留残差通路以及Leaky ReLU 激活函数；经过预处理后的图像大小为1024*1024*1，将其输入骨干网络：首先是进入一个32个过滤器的卷积核，输出的图像大小为1024*1024*32，再将其一次输入到5组重复的残差单元 residualblock中，这5组残差单元的每个残差单元都由一个单独的卷积层与一组重复执行的卷积层构成，重复执行的卷积层分别重复1次、 2次、 8次、 8次、 4次；在每个重复执行的卷积层中，先执行1 ×1的卷积操作，再执行3 ×3的卷积操作，过滤器数量先减半再恢复，一共是 52层；最后选取骨干网络最后两层的特征图分别进行输出，得到两张尺度不同的高通道维度低分辨率的特征图。 4.根据权利要求3所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于步骤(3)中的kmeans算法模块具体实现如下：先将融合后的特征图划为九宫格，每个小格2个尺度，每个尺度3个母先验框，基于这54 个母先验框的比例和位置随机生成总共两千个先验框；每小格的6个母先验框是相同的，由 kmeans算法模块统计训练集中的声呐图像的标注框的大小及长宽比，聚为6个类别。 5.根据权利要求3所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于步骤(3)中L oss函数设计模块具体实现如下：在类别与交叉熵部分引用Focal Loss函数来解决one ‑stage目标检测中正负样本比例严重失衡的问题，并在FocalLoss函数的基础上设计增加了加速因子α，因此最终的Loss函权　利　要　求　书 1/2 页 2 CN 114219998 A 2数的具体公式如下：其中， λcoord为用于平衡坐标损失影响力的超参， λcls为用于平衡分类损失影响力的超参， K表示网络输出层网格数目， M表示先验框的数目，表示第i个网格中第j个先验框与检测目标的负责度， β 为用于放大对小框的坐标损失的超参， xi和yi分别表示第i个标注框的中心点的横坐标和纵坐标，和分别表示第i个预测框的中心点的横坐标和纵坐标， ωi 和hi分别表示第i个标注框的宽和高，和分别表示第i个预测框的宽和高， FocalLoss表示FocalLoss函数，用于计算其分类损失程度。 6.根据权利要求5所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于加速因子α 的设计如下：首先定义数据集图像中任意区域的白点值为该区域像素数组中平均每元素数值大小；针对声呐图像中绝大多数目标区域的白点值比背景更高的特点，加速因子α 能够绕过网络计算出额外的l oss来影响梯度的计算，进而加速网络的收敛；加速因子α 的具体公式如下： x＝平均像素数值在加速因子α 的公式中， a为超参，用于增大惩罚力度，即平衡数值分布， x表示平均像素数值；加速因子α 的输入值为网络生成的预测框的白点值x；输出值范围为(1,a]，与输入值负相关。权　利　要　求　书 2/2 页 3 CN 114219998 A 3

专利 一种基于目标检测神经网络的声纳图像实时检测方法

专利一种基于目标检测神经网络的声纳图像实时检测方法