全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210206849.9 (22)申请日 2022.03.04 (71)申请人 桂林电子科技大 学 地址 541004 广西壮 族自治区桂林市七 星 区金鸡路1号 (72)发明人 文益民  (74)专利代理 机构 桂林文必达专利代理事务所 (特殊普通 合伙) 45134 专利代理师 白洪 (51)Int.Cl. G06V 30/148(2022.01) G06K 9/62(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 30/19(2022.01) (54)发明名称 一种基于改进DAN的越南场景文字识别方法 (57)摘要 本发明涉及文字识别领域, 具体涉及一种基 于改进DAN的越南场景文字识别方法, 包括: 使用 ResNet作为编码器从输入图像中提取原始特征 图; 将所述原始特征图输入CA M中得到注意力图, 具体方式是将原始特征图输入FPN网络得到融合 特征图; 将融合特征图输入VSFM模块得到视觉与 序列融合特征; 将所述视觉与序列融合特征输入 FCN网络以得到注意力图; 将所述原始特征图和 所述注意力图以及VSFM中间特征共同输入增强 型解码器进行解码, 得到场景图的识别结果, 该 方法有效缓解注意力漂移, 将变音符号识别的更 准确, 并且可 以有效区分相似字符, 识别结果更 好。 权利要求书1页 说明书6页 附图2页 CN 114612906 A 2022.06.10 CN 114612906 A 1.一种基于改进DAN的越南场景文字识别方法, 其特 征在于, 包括: 使用ResNet作为编码器从输入图像中提取原 始特征图; 将所述原始特征图输入CAM中得到注意力图, 具体方式是将原始特征图输入FPN网络得 到融合特征图; 将融合特征图输入VSFM模块得到视觉与序列融合特征; 将所述视觉与序列 融合特征输入FCN网络以得到注意力图; 将所述原始特征图和所述注意力图以及VSFM中间特征共 同输入增强型解码器进行解 码, 得到场景图的识别结果。 2.如权利要求1所述的一种基于改进DAN的越南场景文字识别方法, 其特 征在于, 所述将融合特征图输入VSFM模块得到视觉与序列融合特征的具体步骤是: 将融合特征 图以宽度为时间步长, 输入Bi ‑GRU进行水平方向的序列特征建模, 得到水平方向的序列建 模特征; 将融合特征图以高度为时间步长, 输入Bi ‑GRU进行竖直方向的序列特征建模, 得到竖 直方向的序列建模特 征; 将所述水平方向的序列建模特征和所述竖直方向的序列建模特征以及融合特征图进 行对应位置的元 素相加后得到 视觉与序列融合特 征。 3.如权利要求2所述的一种基于改进DAN的越南场景文字识别方法, 其特 征在于, 所述将融合特征图以宽度为时间步长, 输入Bi ‑GRU进行水平方向的序列特征建模的具 体方式是: 在水平方向上即从左往右建模, 又从右往左建模。 4.如权利要求2所述的一种基于改进DAN的越南场景文字识别方法, 其特 征在于, 所述将融合特征图以高度为时间步长, 输入Bi ‑GRU进行竖直方向的序列特征建模, 得 到竖直方向的序列建模特征 的具体方式是: 在竖直方向上即从上到下建模, 又从下到上建 模。 5.如权利要求1所述的一种基于改进DAN的越南场景文字识别方法, 其特 征在于, 所述将所述原始特征图和所述注意力图以及VSFM中间特征共 同输入增强型解码器进 行解码, 得到场景图的识别结果的具体步骤是: S301在每一时刻将原始特征图和注意力图进行相乘得到上下文向量, 并与前一时刻的 解码结果的嵌入向量进 行拼接, 再和前一时刻的hidden信息一起输入GRU, 得到 当前时刻的 hidden信息; S302将hidden信息以及VSFM中间特征在通道 维度进行拼接后输入分类器进行分类, 得 到当前时刻的识别结果; S303重复S301~S302, 当预测得到的最大概率的字符为终止符时, 停止预测, 并将每一 时刻的识别结果组合 起来后得到最终的识别结果。 6.如权利要求5所述的一种基于改进DAN的越南场景文字识别方法, 其特 征在于, 所述VSFM中间特征为融合特征图在Bi ‑GRU进行竖直方向的序列特征建模得到的竖直 方向的序列建模特征, 并将所述融合特征图和所述竖直方向的序列建模特征在通道维度进 行拼接后得到 。权 利 要 求 书 1/1 页 2 CN 114612906 A 2一种基于改进DAN的越南场景 文字识别方 法 技术领域 [0001]本发明涉及文字识别领域, 尤其涉及一种基于改进DAN的越南场景文字识别方法。 背景技术 [0002]自然场景文本识别吸引了很多研究者的关注, 其广泛的应用, 如: 自动驾驶、 视觉 辅助、 招牌识别等进一步突显其应用价值。 随着深度学习的发展, 自然场景文本识别取得巨 大的进步, 有很多相应的方法出现。 然而, 现有的方法大多 是基于英语或者法语等这些非声 调语言的研究, 一些声调语言如越南语的场景文字识别却鲜有研究。 [0003]越南语是一种声调语言, 越南语字符是在拉丁字母的基础上加上九个重音符号或 变音符号构成的, 其中四个符号用来添加元音, 另外五个符号表示越南语的声调, 而这 五个 声调符号决定了每个单词的含义。 越南语字符独特 的构成, 使得自然场景中越南文字的识 别相对于现有的针对英语为主的识别技 术具有以下问题: [0004]1、 越南文字字符数量急剧增多, 字符间差异性较小, 部分字符仅为变音符号的细 微差别; [0005]2、 变音符号相较于拉丁字符形状较小, 准确地将其识别会更加困难, 变音符号识 别错误将导致整个识别结果出错; [0006]3、 变音符号的存在更易 导致注意力漂移问题的发生, 从而产生 错误的识别结果。 发明内容 [0007]本发明的目的在于提供一种基于改进DAN的越南场景文字识别方法, 旨在有效缓 解注意力漂移, 将变音符号识别的更准确, 并且可以有效区分相似字符, 识别结果更好。 [0008]为实现上述目的, 本发明提供了一种基于改进DAN的越南场景文字识别方法, 包括 使用ResNet作为编码器从输入图像中提取原 始特征图; [0009]将所述原始 特征图输入CAM中得到注意力图, 具体方式是将原始 特征图输入FPN网 络得到融合特征图; 将 融合特征图输入VSFM模块得到视觉与序列融合特征; 将所述视觉与 序列融合特 征输入FCN网络以得到注意力图; [0010]将所述原始特征图和所述注意力图以及VSFM中间特征共同输入增强型解码器进 行解码, 得到场景图的识别结果。 [0011]其中, 所述将融合特征图输入VSFM模块得到视觉与序列融合特征的具体步骤是: 将融合特征图以宽度为时间步长, 输入Bi ‑GRU进行水平方向的序列特征建模, 得到水平方 向的序列建模特 征; [0012]将融合特征图以高度为时间步长, 输入Bi ‑GRU进行竖直方向的序列特征建模, 得 到竖直方向的序列建模特 征; [0013]将所述水平方向的序列建模特征和所述竖直方向的序列建模特征以及融合特征 图进行对应位置的元 素相加后得到 视觉与序列融合特 征。 [0014]其中, 所述将融合特征图以宽度为时间步长, 输入Bi ‑GRU进行水平方向的序列特说 明 书 1/6 页 3 CN 114612906 A 3

.PDF文档 专利 一种基于改进DAN的越南场景文字识别方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于改进DAN的越南场景文字识别方法 第 1 页 专利 一种基于改进DAN的越南场景文字识别方法 第 2 页 专利 一种基于改进DAN的越南场景文字识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:16:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。