(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210394782.6 (22)申请日 2022.04.15 (71)申请人 中信百信银行股份有限公司 地址 100029 北京市朝阳区安定路5号院3 号楼8层 (72)发明人 夏范进  (74)专利代理 机构 北京市兰台律师事务所 11354 专利代理师 张博 张峰 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/25(2019.01) (54)发明名称 一种可配置化OCR识别准确率评测方法、 系 统、 电子设备和可读存 储介质 (57)摘要 本发明涉及一种可配置化OCR识别准确率评 测方法、 系统、 电子设备和可读存储介质。 该方法 可改善传统识别方式所采用的需要耗费大量人 力的情况, 所述方法的主要 步骤包括: 第一, 由评 测机构配置yaml格式文件, 为后续与供应商的识 别结果进行比对之用。 第二, 评测机构收集各供 应商所识别的数据结果。 第三, 评测机构通过程 序解析配置文件。 第四, 评测机构处理识别结果 数据, 与供应商的OCR数据进行对比, 输 出对比结 果, 从而为评测机构选择供应商提供参考依据。 该通过修改配置的方法, 来代替传统的修改程 序, 可解决在核对过程中的标注错误问题、 同义 字符问题、 非功能性漏识等问题。 权利要求书1页 说明书6页 附图4页 CN 114579618 A 2022.06.03 CN 114579618 A 1.一种可配置化OCR识别准确率评测方法, 其特 征在于, 包括: S101, 评测机构配置文件; S102, 评测机构解析配置文件; S103, 评测机构处 理识别结果数据。 2.如权利要求1所述的可配置化OCR识别准确率评测方法, 其特征在于, 步骤S101中所 述的配置文件为yaml格式文件。 3.如权利要求2所述的可配置化OCR识别准确率评测方法, 其特征在于, 所述yaml格式 文件的字段包括replace、 return、 ad d、 merge。 4.如权利 要求1或2所述的可配置化OCR识别准确率评测方法, 其特征在于, 步骤S103中 还替换处 理步骤。 5.如权利 要求1或2所述的可配置化OCR识别准确率评测方法, 其特征在于, 步骤S103还 包括添加处 理步骤。 6.如权利 要求1或2所述的可配置化OCR识别准确率评测方法, 其特征在于, 步骤S103还 包括合并处理步骤。 7.如权利 要求1或2所述的可配置化OCR识别准确率评测方法, 其特征在于, 所述S103处 理识别结果数据, 包括选择处 理步骤。 8.如权利 要求1或2所述的可配置化OCR识别准确率评测方法, 其特征在于, 步骤S101还 包括将自定义的数据类型配置到文件中, 步骤S103还包括重写数据类型的等号操作符、 解 决同义词和重复字段的方法, 具体的在校验的过程中, 根据客户参数配置, 得到参数名 ‑参 数值键值对; 取出交易模板配置中输入参数,与得到的客户参数名对比, 若相同, 则取出客户参数 值、 请求报文中字段值及校验器名称; 根据得到的校验器名称加载对应处理逻辑代码, 客户参数值与请求报文字段值作为入 参, 进入校验器处理, 得出最 终的校验 结果, 若校验通过, 请求会路由到下游的业务系统, 否 则直接在接入层打回。 9.如权利要求4所述的可配置化OCR识别准确率评测方法, 其特征在于, 步骤S103还包 括生成方便核对的中间结果。 10.一种可配置化OCR识别准确率评测系统, 其特征在于, 包括: 数据标准化模块、 数据 识别结果模块以及数据转换模块; 其中, 数据标准化模块与数据 识别结果模块相连接; 数据 识别结果模块与数据转换模块相连接 。 11.一种计算机可读存储介质, 其特征在于, 所述存储介质上存储有计算机程序, 所述 计算机程序被处 理器执行时实现权利要求1至7中任一项所述的方法。 12.一种电子设备, 其特 征在于, 包括处 理器和存 储器; 所述存储器, 用于存 储; 所述处理器, 用于通过调用, 执 行权利要求1至7中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 114579618 A 2一种可配置 化OCR识别准确率评测方 法、 系统、 电子 设备和可 读存储介质 技术领域 [0001]本发明涉及OC R识别准确率评测技术领域, 尤其涉及一种可配置化OC R识别准确率 评测方法、 系统、 电子设备和可读存 储介质。 背景技术 [0002]OCR识别准确率评测, 是一项繁琐且耗人力的工作。 企业(比如银行)在对接OCR供 应商们时, 一般会邀请供应商们来现场POC, 在大量的内部测试样本(图片)上, 输出识别 结 果(文本)。 对 供应商们的识别结果进 行准确率评测, 并给出识别优劣的排序, 就成为 企业的 一项繁重的工作。 [0003]现假设企业要采集10种证件OC R(如身份证、 驾 驶证、 营业执照、 行驶证等), 平均每 种证件有500个测试图片, 每种张测试图片有20个字段。 在公开招标的场景下, 共有8家厂商 应标, 如此便需要核对10*500*20*8=800,000个字段的准确率。 假如核对一个字段需要10 秒, 则共需80 00,000秒, 2222个小时的人力。 [0004]如此大量的核对工作, 需要耗费大量人力。 所以有能力的企业, 一般采用写 “OCR结 果核对程序 ”进行核对的方法。 对测试图片进行标注, 准备一份标准答案, 跟厂商的识别结 果进行匹配, 给 出准确率的结果。 [0005]写程序核对, 也是非常耗时的一项工作, 因为程序需 随数据的变化而做出改变。 核 对身份证的程序, 考虑不到行驶证中有两个如 “号牌号码 ”同样的字段, 直接套用会报错; 核 对同一个证件的不同厂商, 考虑不到厂商在比如 ”价税合计 ”字段, 是输出 “价税合计:¥ 1200”, 还是输出 “price_tax:1200元 ”, 直接使用会核对不准。 也就是说, 程序员需要根据证 件的不同和厂商的不同, 随时调整程序。 以上的例子中, 程序员需要调整出80份程序, 才成 完成核对这项工作。 [0006]目前还没有可配置化的OCR识别准确率评测工具, 以快速应对这种需要大量人力 工作。 发明内容 [0007]为提升核对工作的效率, 本发明并未采用传统的编写OCR结果核对程序的方式解 决该问题, 而 是提出一种可配置化OCR识别准确率评测方法。 该方法通过对业务场景进 行抽 象, 建设通用的可配置的 “OCR结果核对程序 ”, 以修改配置的方法, 来代替修改程序。 这种程 序还能够解决在核对过程中出现的标注错误问题, 同时还可解决同义字符问题以及非功能 性漏识问题和字段合并问题。 [0008]为实现以上目的, 本发明所采用的一种可配置化OC R识别准确率评测方法, 包括以 下步骤: [0009]S101, 评测机构配置文件; [0010]S102, 评测机构解析配置文件;说 明 书 1/6 页 3 CN 114579618 A 3

.PDF文档 专利 一种可配置化OCR识别准确率评测方法、系统、电子设备和可读存储介质

安全报告 > 其他 > 文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种可配置化OCR识别准确率评测方法、系统、电子设备和可读存储介质 第 1 页 专利 一种可配置化OCR识别准确率评测方法、系统、电子设备和可读存储介质 第 2 页 专利 一种可配置化OCR识别准确率评测方法、系统、电子设备和可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 00:09:16上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。