全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210262353.3 (22)申请日 2022.03.16 (66)本国优先权数据 202111501899.1 2021.12.09 CN 202210009439.5 202 2.01.06 CN (71)申请人 上海鹑火信息技 术有限公司 地址 201400 上海市奉贤区大叶公路818 8 号8幢 (72)发明人 不公告发明人   (74)专利代理 机构 杭州天昊专利代理事务所 (特殊普通 合伙) 33283 专利代理师 范凌杰 (51)Int.Cl. G06V 30/40(2022.01) G06V 30/14(2022.01)G06V 30/19(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种婆罗米系文字的识别方法及系统 (57)摘要 本发明提供一种婆罗米系文字的识别方法, 用于输入图像的文本识别, 包括检测步骤、 识别 文本步骤, 其中, 检测步骤包括: 1.输入图像, 图 像进入检测模块; 2.检测模块对图像中的文字区 域进行描述, 描述形式为多边形顶点坐标; 3.将 描述完毕的文字区域图提取出来经过变换得到 规则形状的图像; 识别文本步骤, 包括: 4.将多 边 形图像传入识别模块得到文本数据; 其中, 检测 模块内设有用于提取图像特征的第一主干神经 网络, 识别模块内设有第二主干神经网络。 本发 明提供的一种婆罗米系文字的识别方法及系统, 解决了传统OCR对部分婆罗米系文字不能正确识 别的问题, 有很好的市场前 景。 权利要求书2页 说明书13页 附图19页 CN 114842487 A 2022.08.02 CN 114842487 A 1.一种婆罗米系 文字的识别方法, 用于输入图像的文本识别, 其特征在于, 包括检测步 骤、 识别文本步骤, 其中, 检测步骤 包括: 1.输入图像, 图像进入检测模块; 2.检测模块对图像中的文字区域进行描述, 描述形式为多边形顶点 坐标; 3.将描述完毕的文字区域图提取 出来经过变换得到规则形状的图像; 识别文本步骤, 包括: 4.将多边形图像传入识别模块得到文本数据; 其中, 检测模块内设有用于提取图像特征的第一主干神经网络, 识别模块内设有第二 主干神经网络 。 2.根据权利要求1所述的一种婆罗米系文字的识别方法, 其特 征在于, 步骤2包括: 2.1采用第一主干神经网络, 提取图像特 征; 2.2基于第一主干神经网络提取的图像特征, 再采用检测神经网络, 找出文字区域的二 值化图像; 2.3针对文字区域的二 值化图像进行处 理, 提取出多边形顶点 坐标。 3.根据权利要求1所述的一种婆罗米系 文字的识别方法, 其特征在于, 第 一主干神经网 络为FPN神经网络, 检测神经网络为可选择的, 包括DB神经网络, EAST神经网络, SAST神经网 络。 4.根据权利要求1所述的一种婆罗米系文字的识别方法, 其特 征在于, 步骤3包括: 3.1根据步骤2得到的多边形顶点坐标, 使用Sklansky凸包算法提取多边形顶点集合的 凸包; 3.2使用鞋 带算法计算原多边形的面积和凸包的面积; 3.3根据原多边形的面积比上凸包的面积得到R; 3.4根据R值的大小判断文字区域是矩形文字还是弯曲文字, 并施行不同的多边形处理 算法; 3.5根据判断结果, 实施不同的操作; 在步骤3, 4中, 通过将R与预设好的文字比较值C进行比较, 来判断是矩形文字或是弯曲 文字当R>C, 判定为矩形文字区域, 当R<C, 判定为弯曲文字区域; 在步骤3.5中, 实施不同的操作为进行不同的二维变换, 二维变换包括但不限于仿射变 换、 刚体变换、 投影 变换、 tps变换。 5.根据权利要求2所述的一种婆罗米系 文字的识别方法, 其特征在于, 当第 一主干神经 网络选用FPN神经网络时, 步骤2.1包括: 2.1.1图像缩放; 2.1.2提取图像特 征; 2.1.2提取图像特征具体为: 首先一个自底向上的子 网络计算出N个尺寸的特征图(N≥ 2), 然后一个自顶向下的子网络以及水平连接逐步恢复特征图的尺寸, 并使用concat操作 把所有尺寸的特 征融在一 起, 得到特 征图。 6.根据权利要求2所述的一种婆罗米系 文字的识别方法, 其特征在于, 当检测神经网络 为DB神经网络, 步骤2.2为:权 利 要 求 书 1/2 页 2 CN 114842487 A 22.2基于FPN网络提取的图像特征, DB神经网络会在步骤2.1.2提取的特征 图的每一个 像素位置计算一个[0, 1]之间的值, 并与预先设定好的特征比较值B 进行比较, 值大于B的像 素就判定为文字区域, 值小于B的像素判定为非文字区域, 由此 得到一个二 值化图像; 步骤2.3为: 2.3针对文字区域的二值化图像做连通分量分析, 基于连通区域提取轮廓, 最终找出文 字区域的多边形顶点 坐标。 7.根据权利要求2所述的一种婆罗米系 文字的识别方法, 其特征在于, 第 二主干神经网 络为可选择的, 包括CRN N卷积循环神经网络结构, 或是RARE神经网络, 或是SAR神经网络; 当第二主干神经网络 选用CRNN时, 识别文本步骤 包括: 4.1采用第二主干神经网络, 将检测模块得到的多边形图像压缩为高维特 征序列; 4.2对于第二主干神经网络 输出的高维特 征序列进行解码, 得到最终的文本信息 。 8.根据权利要求2所述的一种婆罗米系文字的识别方法, 其特 征在于, 步骤4.1包括: 4.1.1图像缩放; 4.1.2CNN提取提取序列特 征; 4.1.3RNN增强序列特 征; 步骤4.2包括: 4.2.1在不同位置分别计算 概率最大的分量索引, 得到与位置数量相同的索引; 4.2.2不同索引中相邻索引如果相等则需要坍缩成一个; 4.2.3删除索引序列中用于表达空白字符的索引; 4.2.4索引序列按照词典映射成文字序列。 9.根据权利要求2所述的一种婆罗米系文字的识别方法, 其特 征在于, 还 包括步骤5: 5.检测结果和识别结果打包输出。 10.一种婆罗米系 文字的识别系统, 其特征在于, 包括检测模块、 文本识别模块, 检测模 块用于识别输入图像上 的文字区域, 并对其进行提取, 文本识别模块用于对提取后的文字 区域进行识别; 检测模块、 文本识别模块能分别执行权利要求1~权利要求9所述的检测步 骤和/或识别文本步骤。权 利 要 求 书 2/2 页 3 CN 114842487 A 3

.PDF文档 专利 一种婆罗米系文字的识别方法及系统

文档预览
中文文档 35 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种婆罗米系文字的识别方法及系统 第 1 页 专利 一种婆罗米系文字的识别方法及系统 第 2 页 专利 一种婆罗米系文字的识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:18:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。