(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210467209.3
(22)申请日 2022.04.29
(71)申请人 南京信息职业 技术学院
地址 210023 江苏省南京市栖霞区仙林大
学城文澜路99号
(72)发明人 褚哲 张泽
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 范青青
(51)Int.Cl.
G06V 40/16(2022.01)
G06F 16/583(2019.01)
G06V 10/762(2022.01)
(54)发明名称
一种人脸数据集的构建方法及系统
(57)摘要
本发明公开了一种人脸数据集的构建方法
及系统, 所述构建方法包括: 创建能够表明唯一
人物身份信息的关键词列表,并确定各人物的标
准人脸图像; 依据关键词爬取人脸图像; 采用人
脸检测算法进行人脸检测并裁剪; 采用训练好的
ArcFace人脸识别模型提取所裁剪的人脸图像的
特征向量; 基于所提取的人脸特征向量, 采用
DBSCAN聚类算 法对所裁剪的人脸图像初步聚类,
参照标准人脸图像, 剔除非目标人物的人脸图
像, 保留候选人脸 图像; 采用DBSCAN聚类算法进
行二次聚类, 实现人脸图像的去重处理; 对去重
处理后的人脸图像进行清洗, 获取人脸数据集。
该构建方法可以创建大规模的的人脸数据集, 基
于此数据集可以开发各类人种不同的人脸识别
模型。
权利要求书2页 说明书6页 附图1页
CN 114863525 A
2022.08.05
CN 114863525 A
1.一种人脸数据集的构建方法, 其特 征在于, 包括:
创建能够表明唯一人物身份信息的关键词列表,并确定各 人物的标准人脸图像;
依据关键词列表中的关键词爬取人脸图像, 并将基于同一关键词爬取的人脸图像存储
于同一文件夹中;
对于同一文件夹中的人脸图像分别采用人脸检测算法进行 人脸检测并裁 剪;
采用训练好的A rcFace人脸识别模型对所裁 剪的人脸图像进行 特征向量提取;
基于所提取的人脸特征向量, 采用DBSCAN聚类算法对所裁剪的人脸图像进行初步聚
类, 根据初步聚类结果并参照标准人脸图像, 剔除非目标人物的人脸图像, 保留候选人脸图
像;
采用DBSCAN聚类算法对候选人脸图像进行二次聚类, 根据二次聚类结果进行人脸图像
的去重处 理;
对去重处 理后保留的人脸图像进行清洗, 获取 所述人脸数据集。
2.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 所述关键词包括人物
姓名, 以人物姓名创建 关键词列表时, 对同一人物的 曾用名或艺名或笔名进行姓名合并。
3.如权利要求2所述的一种人脸数据集的构建方法, 其特征在于, 以公众任务的人物姓
名为关键词爬取人脸图像时, 由前往后至少 爬取五百张人脸图像; 同一人物姓名爬取 的人
脸图像存 储于以人物姓名命名的文件夹中。
4.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 所述人脸检测算法包
括MTCNN或dlib算法。
5.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 在执行裁剪操作之
前, 删除分辨 率小于设定阈值的人脸图像。
6.如权利 要求1所述的一种人脸数据集的构建方法, 其特征在于, 采用DBSCAN聚类算法
对所裁剪的人脸图像进行初步聚类的方法包括:
对于两张人脸图像的特征向量间的欧式距离, 对于欧式距离小于设定 阈值的人脸图像
归结为同一类别;
将人脸图像数目最多的类别作为 正样本人脸 集所在的类别。
7.如权利 要求1所述的一种人脸数据集的构建方法, 其特征在于, 采用DBSCAN聚类算法
对剔除非目标人物后的人脸图像进行二次聚类 之前, 在scikit ‑learn的DBSCAN函数中调小
聚类的eps参数, 并设置聚类的参数mi n_samples=2, 以使聚类数目两个及以上才成为 一类。
8.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 对于二 次聚类得到的
有重复人脸图像的类别, 仅保留分辨 率最高的一张人脸图像。
9.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 所述清洗包括: 删除
非目标人物的人脸图像、 属于目标人物但人脸不完整的人脸图像、 目标人物的卡通图, 根据
图像质量和业 务需求选择性的保留或删除目标 人物的素描或油画图像。
10.一种人脸数据集的构建系统, 其特 征在于, 包括:
创建模块: 用于创建能够表明唯一人物身份信息的关键词列表,并确定各人物的标准
人脸图像;
爬取模块: 用于依据关键词列表中的关键词爬取人脸图像, 并将基于同一关键词爬取
的人脸图像存 储于同一文件夹中;权 利 要 求 书 1/2 页
2
CN 114863525 A
2人脸检测及裁剪模块: 用于对于同一文件夹 中的人脸图像分别采用人脸检测算法进行
人脸检测并裁 剪;
提取模块: 用于采用训练好的ArcFace人脸识别模型对所裁剪的人脸 图像进行特征向
量提取;
初步聚类模块: 用于基于所提取的人脸特征向量, 采用DBSCAN聚类算法对所裁剪的人
脸图像进行初步聚类, 根据初步聚类结果并参照标准人脸图像, 剔除非目标人物的人脸图
像, 保留候选人脸图像;
二次聚类模块: 用于采用DBSCAN聚类算法对候选人脸 图像进行二次聚类, 根据二次聚
类结果进行 人脸图像的去重处 理;
清洗模块: 用于对去重处 理后保留的人脸图像进行清洗, 获取 所述人脸数据集。权 利 要 求 书 2/2 页
3
CN 114863525 A
3
专利 一种人脸数据集的构建方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:30:33上传分享