(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210275327.4
(22)申请日 2022.04.14
(71)申请人 哈尔滨理工大 学
地址 150080 黑龙江省哈尔滨市南岗区学
府路52号
(72)发明人 李斌 张信杰 尹芳
(51)Int.Cl.
G06V 20/62(2022.01)
G06V 10/25(2022.01)
G06V 10/46(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于Faster R-CNN的自然场景文本检测算
法
(57)摘要
本发明针对二阶段算法(R ‑CNN)无法有效的
检测弯曲文本的缺陷。 提出了一种基于 FasterR‑
CNN的自然场景文本检测算法。 首先, 在特征提取
阶段使用残差网络提取深度特征; 其次, 结合改
进的Inception网络使 提取的深度特征更适用于
文本检测中长宽比较大的情况; 最后, 融合无锚
框思想对RPN进行改进, 将传统的基于区域预测
的RPN结构改成基于点预测的anchor ‑freeRPN。
实验表明, 该算法在数据集上比普通的二阶段算
法有很好的检测效果。
权利要求书1页 说明书5页 附图1页
CN 114648753 A
2022.06.21
CN 114648753 A
1.基于Faster R‑CNN的自然场景文本检测算法, 其特 征包括以下步骤:
步骤1: 特征提取阶段: 使用Resnet ‑101网络作为骨干网络, 并引用改进的Inception模
块;
步骤2: 目标检测阶段: 融合无锚框思想对RPN进行改进, 将传统的基于区域预测的RPN
结构改成基于点预测的anc hor‑free RPN, 使模型能够应对场景文本多方向的特点;
步骤3: 损失函数阶段: 使用了focal loss取代传统的soft max损失函数, 进一步提高模
型精度;
步骤4: 基于Faster R‑CNN的自然场景文本检测模型的构建。
2.根据权利 要求1所述的基于Faster R‑CNN的自然场景文本检测算法, 其特征在于, 所
述步骤1中, 引入Resnet ‑101作为骨干网络, 结合特征金字塔来提取特征图; 同时在融合不
同尺度的特征图后面添加Incept ion模块通过叠加更多 卷积操作来提取更为丰富的特征向
量, 从而使最后的分类结果更加准确。
3.根据权利 要求1所述的基于Faster R‑CNN的自然场景文本检测算法, 其特征在于, 所
述步骤2中, 提取到四层特征之后, 在其后面分别连接四个不同尺度的检测模块, 与区域生
成网络结构类似, 每个检测模块都可以看作是一个滑动窗口检测器, 在每一层特征金字塔
结构上使用一个子网络对每 个3×3的滑动窗口进行文本 /非文本分类和边界框回归。
4.根据权利 要求1所述的基于Faster R‑CNN的自然场景文本检测算法, 其特征在于, 所
述步骤3中, 引入文本分类损失Lc, 预测框回归损失Lr, λc和 λr为平衡参数, 具体如下: L=λ
cLc+λcLc, 其中回归损失函数使用Smooth L1损失, 即
则回归损失函数计算公式为Lr(t,t*)=Smooth L1(t,t*)=∑i=1,2,3,4Smooth L1(Δxi)+
Smooth L1(Δyi), 其中t和t*分别表示从P到G的归一化之后的8维坐标预测值和真实值, 深
度特征提取过程中, 首先将图像输入残差网络提取卷积特征得到Dconv ×Hconv×Wconv的
特征图, 然后将特征图视为一列特征向量序列, 其长度与特征图的宽度Wconv相等, 序列中
每个向量的维度等于特征图的高度乘以深度D conv×Hconv, 根据卷积神经网络特征的局部
性, 我们可以将整张输入图片 视为一个个竖条型区域的组合, 按照从左到右的顺序排列, 特
征向量序列与竖条型区域逐个对应, 即特征序列按照从左到右的顺序描述了输入图像的一
个个局部区域, 为了提高特征 的描述能力和上下文关联性, 我们在卷积神经网络上叠加 一
个双向长短期记忆网络, 同时从两个方向(从左向右和从右向左)提取空间依赖关系, 分析
长距离相关性, 使得到的特向量包含更为丰富的上下文信息, 双向长短期记忆网络的输出
是一个新的特 征序列, 表示 为h=[h1,. ..hL], L=Wconv。
5.根据权利 要求1所述的基于Faster R‑CNN的自然场景文本检测算法, 其特征在于, 所
述步骤4中, 在训练和测试阶段, 利用Resnet ‑101提取特征图, 利用Faster R‑CNN算法针对
目标文本进行检测, 确定识别模块的参数, 然后利用测试集进行功能验证。权 利 要 求 书 1/1 页
2
CN 114648753 A
2基于Faster R‑CNN的自然场景 文本检测算法
技术领域
[0001]本发明属于目标检测技术领域, 主要是对文本检测中的弯曲文本检测进行改进优
化。 具体是一种基于FasterR ‑CNN的自然场景文本检测算法, 可应用于无人驾驶、 智能交通
等领域。
背景技术
[0002]场景文本检测算法作为目标检测的一个分支, 主要分为两大类:单阶段检测方法
和二阶段检测方法。 单阶段检测方法直接获得文本类别得分和位置坐标, 速度快, 但是准确
度低。 二阶段检测方法首先生成候选框然后再进行精细分类, 分两步进行检测, 速度, 但是
准确度高。 在机器学习 、 图像处理等领域取 得了广泛研究与应用。
[0003]到目前为止, 已经有很多种检测算法被提出。 如R ‑CNN系列算法, SSD算法, YOLO系
列算法等。
[0004]2015年何凯明等提出了一种在FastR ‑CNN基础上添加RPN候选框的检测算法, 即:
FasterR‑CNN算法, 该算法性能优 越且可优化 点多, 近几年 一直是热门研究内容。
发明内容
[0005]首先使用卷积神经网络(CNN)用于文本检测的算法由Jaderberg等提出, 该算法通
过CNN提取场景图像的深度特征, 以此区分文本区域和背景区域。 紧接着, R ‑CNN系列算法也
相继问世, 该算法通过Selective Search方法从场景图像中提取出多个候选框, 将提取出
的候选框作为CNN的输入对候选框进 行处理, 最后将所有候选框经过CNN处理得到的特征输
入到支持向量机进行分类, 该算法相较于传统算法来说有着更快的检测速度以及更高的检
测准确率, 但是在 使用CNN对候选框的特征提取阶段需要耗费大量时间。 因此后续的FastR ‑
CNN使用SPP‑Net代替了传统的CN N, 使得检测效率大 大提高。
[0006]在此基础上, FasterR ‑CNN引入了RPN网络来提取候选框, 加快了从场景图像中提
取候选框的速度, 从而进一步提高了检测效率。 Tian等在FasterR ‑CNN的基础上加入了双向
循环神经网络(BRN N), 使得水平排列文本的上 下信息得到利用。
[0007]SSD是一个经典的单阶段目标检测算法。 SSD基于预设框(defaultbox)进行目标检
测, 其网络结构如图1所示, 输入图像首先通过卷积网络进 行特征提取, 在卷积网络中, 不同
的卷积层经过采样后输出的featuremap尺寸不同, SSD提取了不同尺度的featuremap来做
检测, 通过在不同尺寸的特征图上分配不同大小的defaultb ox, 然后对defaultb ox进行边
框回归(得到边框的中心坐标{x,y}以及宽高{w,h})和分类得到检测结果。
[0008]Faster R‑CNN是一个出色的两阶段目标检测算法。 其内容可以分为四个主要部
分:
[0009]特征提取: Fast er R‑CNN使用卷积神经网络进行特征提取, 经过基础的卷积层+激
活函数层+池化层的逐层操作, 提取到输入图片的特征, 得到特征图用于后续的区域生 成网
络和全连接层。说 明 书 1/5 页
3
CN 114648753 A
3
专利 基于Faster R-CNN的自然场景文本检测算法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:36:53上传分享