专利基于Faster R-CNN的自然场景文本检测算法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210275327.4 (22)申请日 2022.04.14 (71)申请人哈尔滨理工大学地址 150080 黑龙江省哈尔滨市南岗区学府路52号 (72)发明人李斌　张信杰　尹芳　 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/25(2022.01) G06V 10/46(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于Faster R-CNN的自然场景文本检测算法 (57)摘要本发明针对二阶段算法(R ‑CNN)无法有效的检测弯曲文本的缺陷。提出了一种基于 FasterR‑ CNN的自然场景文本检测算法。首先，在特征提取阶段使用残差网络提取深度特征；其次，结合改进的Inception网络使提取的深度特征更适用于文本检测中长宽比较大的情况；最后，融合无锚框思想对RPN进行改进，将传统的基于区域预测的RPN结构改成基于点预测的anchor ‑freeRPN。实验表明，该算法在数据集上比普通的二阶段算法有很好的检测效果。权利要求书1页说明书5页附图1页 CN 114648753 A 2022.06.21 CN 114648753 A 1.基于Faster R‑CNN的自然场景文本检测算法，其特征包括以下步骤：步骤1：特征提取阶段：使用Resnet ‑101网络作为骨干网络，并引用改进的Inception模块；步骤2：目标检测阶段：融合无锚框思想对RPN进行改进，将传统的基于区域预测的RPN 结构改成基于点预测的anc hor‑free RPN，使模型能够应对场景文本多方向的特点；步骤3：损失函数阶段：使用了focal loss取代传统的soft max损失函数，进一步提高模型精度；步骤4：基于Faster R‑CNN的自然场景文本检测模型的构建。 2.根据权利要求1所述的基于Faster R‑CNN的自然场景文本检测算法，其特征在于，所述步骤1中，引入Resnet ‑101作为骨干网络，结合特征金字塔来提取特征图；同时在融合不同尺度的特征图后面添加Incept ion模块通过叠加更多卷积操作来提取更为丰富的特征向量，从而使最后的分类结果更加准确。 3.根据权利要求1所述的基于Faster R‑CNN的自然场景文本检测算法，其特征在于，所述步骤2中，提取到四层特征之后，在其后面分别连接四个不同尺度的检测模块，与区域生成网络结构类似，每个检测模块都可以看作是一个滑动窗口检测器，在每一层特征金字塔结构上使用一个子网络对每个3×3的滑动窗口进行文本 /非文本分类和边界框回归。 4.根据权利要求1所述的基于Faster R‑CNN的自然场景文本检测算法，其特征在于，所述步骤3中，引入文本分类损失Lc，预测框回归损失Lr， λc和 λr为平衡参数，具体如下： L＝λ cLc+λcLc，其中回归损失函数使用Smooth L1损失，即则回归损失函数计算公式为Lr(t,t*)＝Smooth L1(t,t*)＝∑i＝1,2,3,4Smooth L1(Δxi)+ Smooth L1(Δyi)，其中t和t*分别表示从P到G的归一化之后的8维坐标预测值和真实值，深度特征提取过程中，首先将图像输入残差网络提取卷积特征得到Dconv ×Hconv×Wconv的特征图，然后将特征图视为一列特征向量序列，其长度与特征图的宽度Wconv相等，序列中每个向量的维度等于特征图的高度乘以深度D conv×Hconv，根据卷积神经网络特征的局部性，我们可以将整张输入图片视为一个个竖条型区域的组合，按照从左到右的顺序排列，特征向量序列与竖条型区域逐个对应，即特征序列按照从左到右的顺序描述了输入图像的一个个局部区域，为了提高特征的描述能力和上下文关联性，我们在卷积神经网络上叠加一个双向长短期记忆网络，同时从两个方向(从左向右和从右向左)提取空间依赖关系，分析长距离相关性，使得到的特向量包含更为丰富的上下文信息，双向长短期记忆网络的输出是一个新的特征序列，表示为h＝[h1,. ..hL]， L＝Wconv。 5.根据权利要求1所述的基于Faster R‑CNN的自然场景文本检测算法，其特征在于，所述步骤4中，在训练和测试阶段，利用Resnet ‑101提取特征图，利用Faster R‑CNN算法针对目标文本进行检测，确定识别模块的参数，然后利用测试集进行功能验证。权　利　要　求　书 1/1 页 2 CN 114648753 A 2基于Faster R‑CNN的自然场景文本检测算法技术领域 [0001]本发明属于目标检测技术领域，主要是对文本检测中的弯曲文本检测进行改进优化。具体是一种基于FasterR ‑CNN的自然场景文本检测算法，可应用于无人驾驶、智能交通等领域。背景技术 [0002]场景文本检测算法作为目标检测的一个分支，主要分为两大类:单阶段检测方法和二阶段检测方法。单阶段检测方法直接获得文本类别得分和位置坐标，速度快，但是准确度低。二阶段检测方法首先生成候选框然后再进行精细分类，分两步进行检测，速度，但是准确度高。在机器学习、图像处理等领域取得了广泛研究与应用。 [0003]到目前为止，已经有很多种检测算法被提出。如R ‑CNN系列算法， SSD算法， YOLO系列算法等。 [0004]2015年何凯明等提出了一种在FastR ‑CNN基础上添加RPN候选框的检测算法，即： FasterR‑CNN算法，该算法性能优越且可优化点多，近几年一直是热门研究内容。发明内容 [0005]首先使用卷积神经网络(CNN)用于文本检测的算法由Jaderberg等提出，该算法通过CNN提取场景图像的深度特征，以此区分文本区域和背景区域。紧接着， R ‑CNN系列算法也相继问世，该算法通过Selective Search方法从场景图像中提取出多个候选框，将提取出的候选框作为CNN的输入对候选框进行处理，最后将所有候选框经过CNN处理得到的特征输入到支持向量机进行分类，该算法相较于传统算法来说有着更快的检测速度以及更高的检测准确率，但是在使用CNN对候选框的特征提取阶段需要耗费大量时间。因此后续的FastR ‑ CNN使用SPP‑Net代替了传统的CN N，使得检测效率大大提高。 [0006]在此基础上， FasterR ‑CNN引入了RPN网络来提取候选框，加快了从场景图像中提取候选框的速度，从而进一步提高了检测效率。 Tian等在FasterR ‑CNN的基础上加入了双向循环神经网络(BRN N)，使得水平排列文本的上下信息得到利用。 [0007]SSD是一个经典的单阶段目标检测算法。 SSD基于预设框(defaultbox)进行目标检测，其网络结构如图1所示，输入图像首先通过卷积网络进行特征提取，在卷积网络中，不同的卷积层经过采样后输出的featuremap尺寸不同， SSD提取了不同尺度的featuremap来做检测，通过在不同尺寸的特征图上分配不同大小的defaultb ox，然后对defaultb ox进行边框回归(得到边框的中心坐标{x,y}以及宽高{w,h})和分类得到检测结果。 [0008]Faster R‑CNN是一个出色的两阶段目标检测算法。其内容可以分为四个主要部分： [0009]特征提取： Fast er R‑CNN使用卷积神经网络进行特征提取，经过基础的卷积层+激活函数层+池化层的逐层操作，提取到输入图片的特征，得到特征图用于后续的区域生成网络和全连接层。说　明　书 1/5 页 3 CN 114648753 A 3

专利 基于Faster R-CNN的自然场景文本检测算法

专利基于Faster R-CNN的自然场景文本检测算法