全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111679610.5 (22)申请日 2021.12.31 (71)申请人 上海合合信息科技股份有限公司 地址 200436 上海市 静安区万 荣路1256、 1258号1105-1123室 申请人 上海临冠 数据科技有限公司   上海生腾数据科技有限公司   上海盈五蓄数据科技有限公司 (72)发明人 刘鹏伟 郭丰俊 龙腾 丁凯  张彬 镇立新  (74)专利代理 机构 上海双霆 知识产权代理事务 所(普通合伙) 31415 代理人 殷晓雪 (51)Int.Cl. G06V 30/40(2022.01)G06V 10/24(2022.01) G06V 10/22(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文档图像的方向校正方法与装置 (57)摘要 本申请公开了一种文档图像的方向校正方 法。 寻找输入 图像中文档 区域的边和四个角点, 使用透视变换方法对所述输入图像进行切边和 小角度方向校正。 将所述切边和小角度方向校正 后的图像通过一个角度分类模型得到偏差角度 检测值; 所述偏差角度检测值仅有四种取值—— 0度、 或90度、 或180度、 或270度。 根据所述偏差角 度检测值对所述切边和小角度方向校正后的图 像的方向进行校正。 本申请将文档图像的方向计 算问题改为背景类图像、 四个大角度方向分类问 题, 运算速度快。 本申请不做每个小角度处理, 简 化文档图像的方向校正的复杂度, 便于神经网络 学习。 权利要求书2页 说明书5页 附图8页 CN 114267046 A 2022.04.01 CN 114267046 A 1.一种文档图像的方向校正方法, 其特 征是, 包括如下步骤; 步骤S10: 寻找输入图像 中文档区域的边和四个角点, 使用透视变换方法对所述输入图 像进行切 边和小角度方向校正; 如果所述输入图像是文档图像, 那么切 边后的图像就是所 述输入图像的文档区域; 所述小角度方向校正是指将输入图像的文档区域校正为与正确方 向的偏差角度为0度、 或90度、 或18 0度、 或270度的四种形态之一, 输入图像的文档区域与所 述四种形态的哪一种最接 近, 就校正 为哪一种形态; 步骤S20: 将所述切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角 度检测值; 所述偏差角度检测值仅有四种取值— —0度、 或90度、 或180度、 或270度; 所述角度分类模型采用如下方式得到: (1)收集多张切边后的文档图像以及无文档的 背景类图像及相应的方向标签作为训练数据集合; 所述切边后的文档图像的实际方向与正 确方向的偏 差角度或者为0度, 或者为90度, 或者为180度, 或者为270度; 所述切边后的文档 图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度; 所述 背景类图像的方向标签表示该张图像为背景类图像; (2)对所述训练数据集合中的部分或 全部图像以90度为单位进行随机旋转, 并相应地改变旋转后的切边后的文档图像的方向标 签, 得到增强的训练数据集合; (3)使用所述增强的训练数据集合训练一个角度分类模型, 所述角度分类模型用于区分文档图像与背 景类图像, 还用于识别每张文档图像的实际方向 与正确方向的偏差角度是四种取值中的哪一种; 步骤S30: 根据所述偏差角度检测值对所述切边和小角度方向校正后的图像的方向进 行校正。 2.根据权利要求1所述的文档图像的方向校正方法, 其特征是, 所述步骤S10 中, 如果无 法找到输入图像中文档区域的边和四个角点, 则表明所述输入图像不是文档图像, 退出整 个流程。 3.根据权利要求1所述的文档图像的方向校正方法, 其特征是, 所述步骤S10 中, 将偏差 角度α 定义为从切边后的图像的正确方向开始沿着顺时针方向到切边后的图像的实际方向 之间的角度, 偏差角度α 的取值范围是0度≤α <360度; 所述小角度方向校正包括: 将 0度<α <45度以及315度<α <360度的切边后的图像均校正为α =0度的切边后的图像; 将45度<α <135度的切边后的图像均校正为α =90度的切边后的图像; 将135度<α<225度的切边后 的图像均校正为α =18 0度的切边后的图像; 将225度<α <315度的切边后的图像均校正为α =270度的切边后的图像。 4.根据权利要求1所述的文档图像的方向校正方法, 其特征是, 所述小角度方向校正还 包括: 当α=0度时, 不进行小角度校正; 当α=45度时, 或者校正为为α=0度的切边后的图 像, 或者校正为α =90度的切边后的图像; 当α = 135度时, 或者校正为为α =90度的切边后的 图像, 或者校正为α =18 0度的切边后的图像; 当α =225度时, 或者校正为为α =180度的切边 后的图像, 或者校正为α =270度的切边后的图像; 当α =315度时, 或者校正为为α =270度的 切边后的图像, 或者校正 为α =0度的切边后的图像。 5.根据权利要求1所述的文档图像的方向校正方法, 其特征是, 所述步骤S20 中, 所述角 度分类模型采用轻量级神经网络训练得到 。 6.根据权利要求1所述的文档图像的方向校正方法, 其特征是, 所述步骤S20 中, 所述角 度分类模型在训练时, 将所述增强的训练数据集合中的所有图像的输入尺寸统一缩放到一权 利 要 求 书 1/2 页 2 CN 114267046 A 2个固定尺寸。 7.根据权利要求6所述的文档图像的方向校正方法, 其特征是, 所述步骤S20 中, 先将所 述切边和小角度方向校正后的图像缩放为所述角度分类模型训练 时输入图像的固定尺寸, 再将缩放后的所述切边和小角度方向校正后的图像送入所述角度分类模型。 8.根据权利要求1所述的文档图像的方向校正方法, 其特征是, 所述步骤S20 中, 如果所 述角度分类模型判定所述切边和小角度方向校正后的图像属于背 景类图像, 则退出整个流 程。 9.根据权利要求1所述的文档图像的方向校正方法, 其特征是, 所述步骤S20 中, 如果所 述角度分类模型判定所述切 边和小角度方向校正后的图像的偏差角度检测值为0度, 则退 出整个流 程。 10.一种文档图像的方向校正装置, 其特征是, 包括切边和小角度方向校正单元、 偏差 角度检测单 元、 以及大角度方向校正单 元; 所述切边和小角度方向校正单元用于寻找输入图像中文档区域的边和四个角点, 使用 透视变换方法对所述输入图像进行切边和小角度方向校正; 如果所述输入图像是文档图 像, 那么切 边后的图像就是所述输入图像的文档区域; 所述小角度方向校正是指将输入图 像的文档区域校正为与正确方向的偏差角度为0度、 或90度、 或180度、 或270度的四种形态 之一, 输入图像的文档区域与所述四种形态的哪一种最接 近, 就校正 为哪一种形态; 所述偏差角度检测单元用于将所述切边和小角度方向校正后的图像通过一个角度分 类模型得到偏差角度检测值; 所述偏差角度检测值仅有四种取值——0度、 或90度、 或180 度、 或270度; 所述角度分类模 型采用如下方式得到: (1)收集多张切边后的文档图像以及无 文档的背 景类图像及相应的方向标签作为训练数据集合; 所述切边后的文档图像的实际方 向与正确方向的偏 差角度或者为0度, 或者为90度, 或者为18 0度, 或者为270度; 所述切边后 的文档图像的方向标签用来记载该张切 边后的文档图像的实际方向与正确方向的偏差角 度; 所述背 景类图像的方向标签表 示该张图像为背 景类图像; (2)对 所述训练数据集合中的 部分或全部图像以90度为单位进 行随机旋转, 并相应地改变旋转后的切边后的文档图像的 方向标签, 得到增强的训练数据集合; (3)使用所述增强的训练数据集合训练一个角度分类 模型, 所述角度分类模型用于区分文档图像与背景类图像, 还用于识别每张文档图像的实 际方向与正确方向的偏差角度是四种取值中的哪一种; 所述大角度方向校正单元用于根据所述偏差角度检测值对所述切边和小角度方向校 正后的图像的方向进行 校正。权 利 要 求 书 2/2 页 3 CN 114267046 A 3

.PDF文档 专利 一种文档图像的方向校正方法与装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文档图像的方向校正方法与装置 第 1 页 专利 一种文档图像的方向校正方法与装置 第 2 页 专利 一种文档图像的方向校正方法与装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:43:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。