专利一种基于多尺度融合CRNN模型的文本识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210450071.6 (22)申请日 2022.04.25 (71)申请人合肥学院地址 230601 安徽省合肥市经开区锦绣大道99号 (72)发明人王晓峰　何志煌　邹乐　吴志泽　王依帆　王凯　 (74)专利代理机构合肥辉达知识产权代理事务所(普通合伙) 3416 5 专利代理师汪守勇 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多尺度融合CRNN模型的文本识别方法 (57)摘要一种基于多尺度融合CRNN模型的文本识别方法，涉及文本识别技术领域，为了解决当前主流的场景文本识别模型提取特征时，为了得到更多的特征采用了较小的下采样尺度导致无法更好地提取图像中每个字符完整特征的缺陷。输入的图片通过MSF ‑CRNN模型在卷积层提取特征时，采用不同的下采样尺度得到两个不同尺度的特征输出，然后在特征融合层中将不同尺度的特征进行融合得到新的特征序列，从而更加准确地提取图像的特征，接着将特征序列输入到循环层中学习上下文的信息，最终在转录层中输出预测的结果。本发明通过将不同的尺度进行融合，既扩大了提取特征时的感受野也提取了更多的文本特征，从而提高了识别文本的准确率。权利要求书2页说明书10页附图6页 CN 114821563 A 2022.07.29 CN 114821563 A 1.一种基于多尺度融合CRNN模型的文本识别方法，其特征在于，输入的图片通过MSF ‑ CRNN模型的卷积层提取特征时，采用不同的下采样尺度得到两个不同尺度的特征输出，然后在特征融合层中将不同尺度的特征进行融合得到新的特征序列，从而更加准确地提取图像的特征，接着将特征序列输入到循环层中学习上下文的信息，最终在转录层中输出预测的结果。 2.如权利要求1所述的基于多尺度融合CRN N模型的文本识别方法，其特征在于， MSF‑CRNN模型在卷积层中将多尺度加入到VGG之中，构建了一个卷积神经网络MS ‑VGG 来提取图像的特征；对于一张输入的图像(尺寸为32 ×40×1)，其中高为32，宽为40，通道数为1，经过MS ‑VGG下采样后得到两个不同尺度的特征序列，分别为Scale A和Scale B； Scale A的特征序列长度为10， Scale B的特征序列长度为5；在特征融合层中，将Scale B经过上采样之后，得到Scale B’，然后将Scale A和Scale B’进行融合，得到长度为10的特征序列；在循环层中，将该特征序列以长度为10输入到循环神经网络中学习上下文的特征，对于循环神经网络而言，每一个输入则会得到一个输入结果；在转录层中，将循环层输出的结果经过CTC损失函数得到最终的结果。 3.如权利要求2所述的基于多尺度融合CRN N模型的文本识别方法，其特征在于， MSF‑CRNN模型的卷积层在识别时，模型的输入为文本行图像，在进行文本识别前，先对其进行高斯模糊增强操作预处理，以此来提高样本的多样性，提高模型的识别能力，具体为：将图像进行指定大小的缩放操作，将高度统一设置为32，宽度则在保持长宽比的情况下进行调整；同时，将彩色图像变为灰度图像。 4.如权利要求3所述的基于多尺度融合CRN N模型的文本识别方法，其特征在于， MSF‑CRNN模型的卷积层中的MS ‑VGG通过不同的下采样得到两个不同尺度的结果；向将宽、高、通道数分别为W、 H、 C的图像输入使用了多尺度 VGG的卷积层之中，得到两个尺度的输出，分别命名为Scale A和Scale B； Scale A的尺度为[1,W/4,C]， Scale B的尺度为[1,W/8, C]； Scale A采用的是2 ×1的池化方式， Sc ale B采用的是2 ×2的池化方式；在Scale A中提取的是较小文字的特征，在Scale B中提取的是较大文字的特征； Scale A采用MaxPooling 的下采样方式，获取区域内最重要的特性，而Scale B采用AvgPooling的下采样方式，获取整个区域的平均特性；通过Scale A和Scale B两个特性的融合，更好地提取图像的特征，从而提高识别的准确率。 5.如权利要求 4所述的基于多尺度融合CRN N模型的文本识别方法，其特征在于， MSF‑CRNN模型的特征融合层中，通过将Scale B进行上采样，得到Scale B’，使Scale A 和Scale B’的尺寸相同；然后再将Scale A和Scale B’使用add方法进行融合；设原始的特征序列为V1，经过上采样(Up Sample)之后得到V2；设V1的尺寸为[1， ω， c]，则V2的尺寸为[1， 2ω， c]，其中1表示高度， ω表示宽度， C表示通道数， V2由公式(1)得到 6.如权利要求5所述的基于多尺度融合CRN N模型的文本识别方法，其特征在于，权　利　要　求　书 1/2 页 2 CN 114821563 A 2MSF‑CRNN模型的循环层中采用BiLSTM作为循环层的双向循环神经网络，将尺度为[1， W/4， C]的特征序列以长度为W/4逐个输入到循环神经网络之中学习上下文语义信息，一个输入对应一个输出，则输出[n， W/4]的概率矩阵(n行， W/4列)；其中n表示字母的个数，每一列代表一个图像块是某个字母的概率，也就是将一张图片平分为W/4个图像块，每个图像块预测一个单词。 7.如权利要求6所述的基于多尺度融合CRN N模型的文本识别方法，其特征在于， MSF‑CRNN模型的转录层采用CTC损失函数将循环层的每帧预测的结果转换成标签序列的过程；定义循环层输出的结果y＝y1， y2， y3， ...， yT，其中T表示特征序列的长度， yi是一个长度为n的向量， n表示所有要预测的字符个数加上一个空白字符，如果只预测小写的英文字母，那么n＝26+1＝27；表示向量yi预测第k个字符的概率，所以定义映射函数B，其输入π＝( π1， π2， π3， ...， πT)，输出为L，即B( π )＝L；映射函数B按顺序执行以下两个步骤(1)去掉连续重复的字符(2)去掉空白字符； P( π|y)表示在输入y的条件下，得到 π 的概率，其计算如公式(2)所示，表示第i个输出预测为字符πi的概率； P(L|y)表示在输入y的条件下，得到标签L的概率，其计算如下公式所示：当P(L|y)取最大值时为π， I*＝B( π )作为预测的结果，但是如果使用准确的查找方式需要消耗大量的时间，为了加快寻找的速度，采用了模糊的寻找策略，在该策略下I*≈B (argmaxπP( π|y))，即每个P( π|y)只输出最大的概率。 8.如权利要求7 所述的基于多尺度融合CRN N模型的文本识别方法，其特征在于，选择模型更新的优化器，通过设置每一步的学习率来控制参数更新的幅度，计算损失函数的梯度值，并通过梯度下降对模型的参数进行更新，在模型更新迭代一定次数后，即可将模型定义和参数保存为文件，用于后续的推理过程中；将损失函数O 设置为条件概率的负对数似然函数，通过训练使损失函数最小； X＝{Ii， Li}表示训练集， Ii表示训练图像， Li表示真实的标签序列， yi表示循环层的输出。权　利　要　求　书 2/2 页 3 CN 114821563 A 3

专利 一种基于多尺度融合CRNN模型的文本识别方法

专利一种基于多尺度融合CRNN模型的文本识别方法