全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210450071.6 (22)申请日 2022.04.25 (71)申请人 合肥学院 地址 230601 安徽省合肥市经开区锦绣大 道99号 (72)发明人 王晓峰 何志煌 邹乐 吴志泽  王依帆 王凯  (74)专利代理 机构 合肥辉达知识产权代理事务 所(普通合伙) 3416 5 专利代理师 汪守勇 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多尺度融合CRNN模型的文本识别 方法 (57)摘要 一种基于多尺度融合CRNN模型的文本识别 方法, 涉及文本识别技术领域, 为了解决当前主 流的场景文本识别模型提取特征时, 为了得到更 多的特征采用了较小的下采样尺度导致无法更 好地提取图像中每个字 符完整特征的缺陷。 输入 的图片通过MSF ‑CRNN模型在卷积层提取特征时, 采用不同的下采样尺度得到两个不同尺度的特 征输出, 然后在特征融合层中将不同尺度的特征 进行融合得到新的特征序列, 从而更加准确地提 取图像的特征, 接着将特征序列输入到循环层中 学习上下文的信息, 最终在转录层中输出预测的 结果。 本发明通过将不同的尺度进行融合, 既扩 大了提取特征时的感受野也提取了更多的文本 特征, 从而提高了识别文本的准确率。 权利要求书2页 说明书10页 附图6页 CN 114821563 A 2022.07.29 CN 114821563 A 1.一种基于多尺度融合CRNN模型的文本识别方法, 其特征在于, 输入的图片通过MSF ‑ CRNN模型的卷积层提取特征时, 采用不同的下采样尺度得到两个不同尺度的特征输出, 然 后在特征融合层中将不同尺度的特征进行融合得到新的特征序列, 从而 更加准确地提取图 像的特征, 接着将特征序列输入到循环层中学习 上下文的信息, 最终在转录层中输出预测 的结果。 2.如权利要求1所述的基于多尺度融合CRN N模型的文本识别方法, 其特 征在于, MSF‑CRNN模型在卷积层中将多尺度加入到VGG之中, 构建了一个卷积神经网络MS ‑VGG 来提取图像的特征; 对于一张输入的图像(尺寸为32 ×40×1), 其中高为32, 宽为40, 通道数 为1, 经过MS ‑VGG下采样后得到两个不同尺度的特征序列, 分别为Scale  A和Scale  B; Scale  A的特征序列长度为10, Scale  B的特征序列长度为5; 在特征融合层中, 将Scale  B经过上采样之后, 得到Scale  B’, 然后将Scale  A和Scale   B’进行融合, 得到 长度为10的特 征序列; 在循环层中, 将该特征序列以长度为10输入到循环神经网络中学习上下文的特征, 对 于循环神经网络而言, 每一个输入则会得到一个输入结果; 在转录层中, 将循环层输出的结果经 过CTC损失函数 得到最终的结果。 3.如权利要求2所述的基于多尺度融合CRN N模型的文本识别方法, 其特 征在于, MSF‑CRNN模型的卷积层在识别时, 模型的输入为文本行图像, 在进行文本识别前, 先对 其进行高斯模糊增强操作预处理, 以此来提高样本的多样性, 提高模型的识别能力, 具体 为: 将图像进 行指定大小的缩放操作, 将高度统一设置为32, 宽度则 在保持长宽比的情况下 进行调整; 同时, 将彩色图像 变为灰度图像。 4.如权利要求3所述的基于多尺度融合CRN N模型的文本识别方法, 其特 征在于, MSF‑CRNN模型的卷积层中的MS ‑VGG通过不同的下采样得到两个不同尺度的结果; 向将 宽、 高、 通道数分别为W、 H、 C的图像输入使用了多尺度 VGG的卷积层之中, 得到两个尺度的输 出, 分别命名为Scale  A和Scale  B; Scale A的尺度为[1,W/4,C], Scale  B的尺度为[1,W/8, C]; Scale  A采用的是2 ×1的池化方式, Sc ale B采用的是2 ×2的池化方式; 在Scale  A中提 取的是较小文字的特征, 在Scale  B中提取的是较大文字的特征; Scale  A采用MaxPooling 的下采样方式, 获取区域内最重要的特性, 而Scale  B采用AvgPooling的下采样方式, 获取 整个区域的平均特性; 通过Scale  A和Scale  B两个特性的融合, 更好地提取图像的特征, 从 而提高识别的准确率。 5.如权利要求 4所述的基于多尺度融合CRN N模型的文本识别方法, 其特 征在于, MSF‑CRNN模型的特征 融合层中, 通过将Scale  B进行上采样, 得到Scale  B’, 使Scale  A 和Scale B’的尺寸相同; 然后再将Scale  A和Scale B’使用add方法进行融合; 设原始的特征序列为V1, 经过上采样(Up  Sample)之后得到V2; 设V1的尺寸为[1, ω, c], 则V2的尺寸为[1, 2ω, c], 其中1表示高度, ω表示宽度, C表示 通道数, V2由公式(1)得到 6.如权利要求5所述的基于多尺度融合CRN N模型的文本识别方法, 其特 征在于,权 利 要 求 书 1/2 页 2 CN 114821563 A 2MSF‑CRNN模型的循环层中采用BiLSTM作为循环层的双向循环神经网络, 将尺度为[1, W/4, C]的特征序列以长度为W/4逐个输入到循环神经网络之中学习上下文语义信息, 一个 输入对应一个输出, 则输出[n, W/4]的概率矩阵(n行, W/4列); 其中n表示字母的个数, 每一 列代表一个图像块是某个字母的概率, 也就是将一张图片平分为W/4个图像块, 每个图像块 预测一个单词。 7.如权利要求6所述的基于多尺度融合CRN N模型的文本识别方法, 其特 征在于, MSF‑CRNN模型的转录层采用CTC损失函数将循环层的每帧预测的结果转换成标签序列 的过程; 定义循环层输出的结果y=y1, y2, y3, ..., yT, 其中T表示特征序列的长度, yi是一个长度 为n的向量, n表示所有要预测的字符个数加上一个空白字符, 如果 只预测小写的英文字母, 那么n=26+1=27; 表示向量yi预测第k个字符的概率, 所以 定义映射函数B, 其输入π=( π1, π2, π3, ..., πT), 输出为L, 即B( π )=L; 映射函数B按顺序 执行以下两个步骤(1)去掉连续重复的字符(2)去掉空白字符; P( π|y)表示在输入y的条件下, 得到 π 的概率, 其计算如公式(2)所示, 表示第i个输出 预测为字符πi的概率; P(L|y)表示在输入y的条件下, 得到标签L的概 率, 其计算如下公式所示: 当P(L|y)取最大值时为π, I*=B( π )作为预测的结果, 但是如果使用准确的查找方式需 要消耗大量的时间, 为了加快寻找的速度, 采用了模糊的寻找策略, 在该策略下I*≈B (argmaxπP( π|y)), 即每个P( π|y)只输出最大的概 率。 8.如权利要求7 所述的基于多尺度融合CRN N模型的文本识别方法, 其特 征在于, 选择模型更新的优化器, 通过设置每一步的学习率来控制参数更新的幅度, 计算损 失 函数的梯度值, 并通过梯度下降对模型的参数进 行更新, 在模 型更新迭代一定次数后, 即可 将模型定义和参数保存为文件, 用于后续的推理过程中; 将损失函数O 设置为条件概 率的负对数似然函数, 通过训练使损失函数最小; X={Ii, Li}表示训练集, Ii表示训练图像, Li表示真实的标签序列, yi表示循环层的输 出。权 利 要 求 书 2/2 页 3 CN 114821563 A 3

.PDF文档 专利 一种基于多尺度融合CRNN模型的文本识别方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多尺度融合CRNN模型的文本识别方法 第 1 页 专利 一种基于多尺度融合CRNN模型的文本识别方法 第 2 页 专利 一种基于多尺度融合CRNN模型的文本识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:32:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。