(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211298782.2
(22)申请日 2022.10.24
(71)申请人 广州蓝鸽软件 有限公司
地址 510540 广东省广州市白云区北太路
1633号民营科技园科创路1号
(72)发明人 张新华 李琳璐 邓勇 张宁权
(74)专利代理 机构 上海一平知识产权代理有限
公司 3126 6
专利代理师 成春荣 竺云
(51)Int.Cl.
G06V 30/148(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/82(2022.01)
G06V 30/19(2022.01)
(54)发明名称
试卷信息处 理方法和系统
(57)摘要
本申请涉及教学领域, 公开了一种试卷信息
处理方法和系统。 该方法包括: 获取第一样本集,
该第一样本集中的每个题号样本包含标注为题
号类型的题 号及其左侧空白区的图像块; 用该第
一样本集训练第一目标检测网络得到类型检测
模型; 用该类型检测模型识别并定位待处理试卷
图像中的题 号; 基于题号的识别定位结果对该待
处理试卷图像进行处理。 本申请的实施方式大大
提高了题 号、 学号识别的准确度和错题分割的精
准度。
权利要求书2页 说明书10页 附图3页
CN 115359495 A
2022.11.18
CN 115359495 A
1.一种试 卷信息处 理方法, 其特 征在于, 包括:
获取第一样本集, 所述第 一样本集中的每个题号样本包含标注为题号类型的题号及其
左侧空白区的图像块;
用所述第一样本集训练第一目标检测网络得到类型检测模型;
用所述类型检测模型识别并定位待处 理试卷图像中的题号;
基于题号的识别定位结果对所述待处 理试卷图像进行处 理。
2.如权利要求1所述的试卷信 息处理方法, 其特征在于, 所述第 一样本集中的每个批改
痕迹样本包 含标注为批改痕迹类型的批改痕迹图像块;
所述用所述类型检测模型识别并定位待处理试卷图像中的题号, 进一步包括: 用所述
类型检测模型识别并定位所述待处 理试卷图像中的题号和批改痕迹;
基于题号的识别定位结果对所述待处理试卷图像进行处理, 进一步包括: 基于题号和
批改痕迹的识别定位结果分割所述待处 理试卷图像中的每道试题的区域。
3.如权利要求2所述的试卷信 息处理方法, 其特征在于, 所述题号类型包括不同级别题
号类型;
所述用所述类型检测模型识别并定位所述待处理试卷图像中的题号和批改痕迹进一
步包括: 用所述类型检测模型识别并定位待处 理试卷图像中的各级题号和批改痕迹;
所述基于题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的
区域进一步包括: 基于所述识别定位结果中的一级题号和批改痕迹的识别定位结果分割所
述待处理试卷图像中的每道试题的区域。
4.如权利要求3所述的试卷信 息处理方法, 其特征在于, 所述基于所述识别定位结果中
的一级题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域之
后, 还包括:
判断所述每道试题的区域中的批改痕迹是否包含批改符号 “×”和/或“‑”批改符号, 若
是, 则判断该区域中是否存在N级题号, 其中N≥2;
若不存在, 则直接判定该区域为错题区域并分割以收录至错题本; 若存在, 则获取N级
题号的位置坐标, 依次判断各N级题号左上角横坐标 是否小于 批改痕迹左上角横坐标;
若是, 则保留该N级题号并计算该N级题号与所述批改符号之间的欧式距离, 将与所述
批改符号欧式距离最短的N级题号对应的试题判定为错题并根据该N级题号左上角坐标与
其相邻N级题号左上角坐标分割该错题区域以收录 至所述错题本; 若否, 则舍弃 该N级题号。
5.如权利要求2所述的试卷信 息处理方法, 其特征在于, 所述基于题号和批改痕迹的识
别定位结果分割所述待处 理试卷图像中的每道试题的区域之后, 还 包括:
识别所述每道试题的区域中批改痕迹中的批改符号和批改分数;
计算批改分数与批改符号间的欧氏距离, 将批改分数与其距离最短的批改符号相关
联, 并判断关联批改符号的类型;
统计相同类型的批改符号关联的批改分数, 并根据统计结果、 该批改符号的类型和试
卷总分值计算所述待处 理试卷的目标 得分。
6.如权利要求5所述的试卷信息处理方法, 其特征在于, 所述试卷信息处理方法还包
括:
收集手写学号数字0~9图像块或数字0~9与下划线的组合图像块, 并为收集的每种数权 利 要 求 书 1/2 页
2
CN 115359495 A
2字创建对应的文件夹, 组成学号数字库;
构建学号样本集, 其中遍历N 次学号数字库, 每次从学号数字库中随机选取一个图像块
得到一个学号样 本, 所述学号样本标注有每个数字的类型和位置, 其中N为学号的字 符串长
度;
用所述学号样本集分别训练第 二目标检测网络得到学号检测模型, 将所述待处理试卷
图像分别输入到所述学号检测模型中得到对应的目标 学号;
所述统计相同类型的批改符号关联的批改分数, 并根据统计结果、 该批改符号的类型
和试卷总分值计算所述待处 理试卷的目标 得分之后, 还 包括:
将所述待处理试卷的所述目标学号与所述目标得分相关联, 输出目标学号的目标得
分。
7.如权利要求6所述的试卷信 息处理方法, 其特征在于, 用所述学号样本集分别训练第
二目标检测网络得到学号检测模型, 将所述待处理试卷图像分别输入到所述学号检测模型
中得到对应的目标 学号, 进一 步包括:
用所述学号样本集分别训练faster ‑RCNN网络、 CNN网络和KNN 网络得到对应的faster ‑
RCNN模型、 CN N模型和KN N模型;
将所述待处理试卷图像分别输入到所述faster ‑RCNN模型、 CNN模型和KNN模型中得到
对应的三种识别结果, 对所述三种识别结果采用投票机制确定所述 目标学号, 若所述三种
识别结果均不同时, 将所述CN N模型的识别结果作为所述目标 学号。
8.如权利要求2所述的试卷信息处理方法, 其特征在于, 所述第一目标检测网络为
Cascade‑RCNN网络;
所述用所述第 一样本集训练第 一目标检测网络得到类型检测模型进一步包括: 用所述
第一样本集, 结合Focal Loss均衡来训练所述Cascade ‑RCNN网络, 以得到所述类型检测模
型。
9.如权利要求1 ‑8中任一项所述的试卷信 息处理方法, 其特征在于, 所述用所述类型检
测模型识别并定位待处 理试卷图像中的题号之后, 还 包括:
剔除所述题号的识别定位结果中不符合题号 顺序逻辑的干扰项。
10.一种试 卷信息处 理系统, 其特 征在于, 包括:
样本集获取模块, 用于获取第一样本集, 所述第一样本集中的每个题号样本包含标注
为题号类型的题号及其左侧空白区的图像块;
类型检测模型模块, 用于用所述第一样本集训练第一目标检测网络得到类型检测模
型;
识别与定位模块, 用于用所述类型检测模型识别并定位待处 理试卷图像中的题号;
试卷处理模块, 用于基于题号的识别定位结果对所述待处 理试卷图像进行处 理。权 利 要 求 书 2/2 页
3
CN 115359495 A
3
专利 试卷信息处理方法和系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:17上传分享