全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210275327.4 (22)申请日 2022.04.14 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 李斌 张信杰 尹芳  (51)Int.Cl. G06V 20/62(2022.01) G06V 10/25(2022.01) G06V 10/46(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于Faster R-CNN的自然场景文本检测算 法 (57)摘要 本发明针对二阶段算法(R ‑CNN)无法有效的 检测弯曲文本的缺陷。 提出了一种基于 FasterR‑ CNN的自然场景文本检测算法。 首先, 在特征提取 阶段使用残差网络提取深度特征; 其次, 结合改 进的Inception网络使 提取的深度特征更适用于 文本检测中长宽比较大的情况; 最后, 融合无锚 框思想对RPN进行改进, 将传统的基于区域预测 的RPN结构改成基于点预测的anchor ‑freeRPN。 实验表明, 该算法在数据集上比普通的二阶段算 法有很好的检测效果。 权利要求书1页 说明书5页 附图1页 CN 114648753 A 2022.06.21 CN 114648753 A 1.基于Faster  R‑CNN的自然场景文本检测算法, 其特 征包括以下步骤: 步骤1: 特征提取阶段: 使用Resnet ‑101网络作为骨干网络, 并引用改进的Inception模 块; 步骤2: 目标检测阶段: 融合无锚框思想对RPN进行改进, 将传统的基于区域预测的RPN 结构改成基于点预测的anc hor‑free RPN, 使模型能够应对场景文本多方向的特点; 步骤3: 损失函数阶段: 使用了focal  loss取代传统的soft max损失函数, 进一步提高模 型精度; 步骤4: 基于Faster  R‑CNN的自然场景文本检测模型的构建。 2.根据权利 要求1所述的基于Faster  R‑CNN的自然场景文本检测算法, 其特征在于, 所 述步骤1中, 引入Resnet ‑101作为骨干网络, 结合特征金字塔来提取特征图; 同时在融合不 同尺度的特征图后面添加Incept ion模块通过叠加更多 卷积操作来提取更为丰富的特征向 量, 从而使最后的分类结果更加准确。 3.根据权利 要求1所述的基于Faster  R‑CNN的自然场景文本检测算法, 其特征在于, 所 述步骤2中, 提取到四层特征之后, 在其后面分别连接四个不同尺度的检测模块, 与区域生 成网络结构类似, 每个检测模块都可以看作是一个滑动窗口检测器, 在每一层特征金字塔 结构上使用一个子网络对每 个3×3的滑动窗口进行文本 /非文本分类和边界框回归。 4.根据权利 要求1所述的基于Faster  R‑CNN的自然场景文本检测算法, 其特征在于, 所 述步骤3中, 引入文本分类损失Lc, 预测框回归损失Lr, λc和 λr为平衡参数, 具体如下: L=λ cLc+λcLc, 其中回归损失函数使用Smooth  L1损失, 即 则回归损失函数计算公式为Lr(t,t*)=Smooth  L1(t,t*)=∑i=1,2,3,4Smooth L1(Δxi)+ Smooth L1(Δyi), 其中t和t*分别表示从P到G的归一化之后的8维坐标预测值和真实值, 深 度特征提取过程中, 首先将图像输入残差网络提取卷积特征得到Dconv ×Hconv×Wconv的 特征图, 然后将特征图视为一列特征向量序列, 其长度与特征图的宽度Wconv相等, 序列中 每个向量的维度等于特征图的高度乘以深度D conv×Hconv, 根据卷积神经网络特征的局部 性, 我们可以将整张输入图片 视为一个个竖条型区域的组合, 按照从左到右的顺序排列, 特 征向量序列与竖条型区域逐个对应, 即特征序列按照从左到右的顺序描述了输入图像的一 个个局部区域, 为了提高特征 的描述能力和上下文关联性, 我们在卷积神经网络上叠加 一 个双向长短期记忆网络, 同时从两个方向(从左向右和从右向左)提取空间依赖关系, 分析 长距离相关性, 使得到的特向量包含更为丰富的上下文信息, 双向长短期记忆网络的输出 是一个新的特 征序列, 表示 为h=[h1,. ..hL], L=Wconv。 5.根据权利 要求1所述的基于Faster  R‑CNN的自然场景文本检测算法, 其特征在于, 所 述步骤4中, 在训练和测试阶段, 利用Resnet ‑101提取特征图, 利用Faster  R‑CNN算法针对 目标文本进行检测, 确定识别模块的参数, 然后利用测试集进行功能验证。权 利 要 求 书 1/1 页 2 CN 114648753 A 2基于Faster R‑CNN的自然场景 文本检测算法 技术领域 [0001]本发明属于目标检测技术领域, 主要是对文本检测中的弯曲文本检测进行改进优 化。 具体是一种基于FasterR ‑CNN的自然场景文本检测算法, 可应用于无人驾驶、 智能交通 等领域。 背景技术 [0002]场景文本检测算法作为目标检测的一个分支, 主要分为两大类:单阶段检测方法 和二阶段检测方法。 单阶段检测方法直接获得文本类别得分和位置坐标, 速度快, 但是准确 度低。 二阶段检测方法首先生成候选框然后再进行精细分类, 分两步进行检测, 速度, 但是 准确度高。 在机器学习 、 图像处理等领域取 得了广泛研究与应用。 [0003]到目前为止, 已经有很多种检测算法被提出。 如R ‑CNN系列算法, SSD算法, YOLO系 列算法等。 [0004]2015年何凯明等提出了一种在FastR ‑CNN基础上添加RPN候选框的检测算法, 即: FasterR‑CNN算法, 该算法性能优 越且可优化 点多, 近几年 一直是热门研究内容。 发明内容 [0005]首先使用卷积神经网络(CNN)用于文本检测的算法由Jaderberg等提出, 该算法通 过CNN提取场景图像的深度特征, 以此区分文本区域和背景区域。 紧接着, R ‑CNN系列算法也 相继问世, 该算法通过Selective  Search方法从场景图像中提取出多个候选框, 将提取出 的候选框作为CNN的输入对候选框进 行处理, 最后将所有候选框经过CNN处理得到的特征输 入到支持向量机进行分类, 该算法相较于传统算法来说有着更快的检测速度以及更高的检 测准确率, 但是在 使用CNN对候选框的特征提取阶段需要耗费大量时间。 因此后续的FastR ‑ CNN使用SPP‑Net代替了传统的CN N, 使得检测效率大 大提高。 [0006]在此基础上, FasterR ‑CNN引入了RPN网络来提取候选框, 加快了从场景图像中提 取候选框的速度, 从而进一步提高了检测效率。 Tian等在FasterR ‑CNN的基础上加入了双向 循环神经网络(BRN N), 使得水平排列文本的上 下信息得到利用。 [0007]SSD是一个经典的单阶段目标检测算法。 SSD基于预设框(defaultbox)进行目标检 测, 其网络结构如图1所示, 输入图像首先通过卷积网络进 行特征提取, 在卷积网络中, 不同 的卷积层经过采样后输出的featuremap尺寸不同, SSD提取了不同尺度的featuremap来做 检测, 通过在不同尺寸的特征图上分配不同大小的defaultb ox, 然后对defaultb ox进行边 框回归(得到边框的中心坐标{x,y}以及宽高{w,h})和分类得到检测结果。 [0008]Faster R‑CNN是一个出色的两阶段目标检测算法。 其内容可以分为四个主要部 分: [0009]特征提取: Fast er R‑CNN使用卷积神经网络进行特征提取, 经过基础的卷积层+激 活函数层+池化层的逐层操作, 提取到输入图片的特征, 得到特征图用于后续的区域生 成网 络和全连接层。说 明 书 1/5 页 3 CN 114648753 A 3

.PDF文档 专利 基于Faster R-CNN的自然场景文本检测算法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Faster R-CNN的自然场景文本检测算法 第 1 页 专利 基于Faster R-CNN的自然场景文本检测算法 第 2 页 专利 基于Faster R-CNN的自然场景文本检测算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:36:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。