说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210467209.3 (22)申请日 2022.04.29 (71)申请人 南京信息职业 技术学院 地址 210023 江苏省南京市栖霞区仙林大 学城文澜路99号 (72)发明人 褚哲 张泽  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 范青青 (51)Int.Cl. G06V 40/16(2022.01) G06F 16/583(2019.01) G06V 10/762(2022.01) (54)发明名称 一种人脸数据集的构建方法及系统 (57)摘要 本发明公开了一种人脸数据集的构建方法 及系统, 所述构建方法包括: 创建能够表明唯一 人物身份信息的关键词列表,并确定各人物的标 准人脸图像; 依据关键词爬取人脸图像; 采用人 脸检测算法进行人脸检测并裁剪; 采用训练好的 ArcFace人脸识别模型提取所裁剪的人脸图像的 特征向量; 基于所提取的人脸特征向量, 采用 DBSCAN聚类算 法对所裁剪的人脸图像初步聚类, 参照标准人脸图像, 剔除非目标人物的人脸图 像, 保留候选人脸 图像; 采用DBSCAN聚类算法进 行二次聚类, 实现人脸图像的去重处理; 对去重 处理后的人脸图像进行清洗, 获取人脸数据集。 该构建方法可以创建大规模的的人脸数据集, 基 于此数据集可以开发各类人种不同的人脸识别 模型。 权利要求书2页 说明书6页 附图1页 CN 114863525 A 2022.08.05 CN 114863525 A 1.一种人脸数据集的构建方法, 其特 征在于, 包括: 创建能够表明唯一人物身份信息的关键词列表,并确定各 人物的标准人脸图像; 依据关键词列表中的关键词爬取人脸图像, 并将基于同一关键词爬取的人脸图像存储 于同一文件夹中; 对于同一文件夹中的人脸图像分别采用人脸检测算法进行 人脸检测并裁 剪; 采用训练好的A rcFace人脸识别模型对所裁 剪的人脸图像进行 特征向量提取; 基于所提取的人脸特征向量, 采用DBSCAN聚类算法对所裁剪的人脸图像进行初步聚 类, 根据初步聚类结果并参照标准人脸图像, 剔除非目标人物的人脸图像, 保留候选人脸图 像; 采用DBSCAN聚类算法对候选人脸图像进行二次聚类, 根据二次聚类结果进行人脸图像 的去重处 理; 对去重处 理后保留的人脸图像进行清洗, 获取 所述人脸数据集。 2.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 所述关键词包括人物 姓名, 以人物姓名创建 关键词列表时, 对同一人物的 曾用名或艺名或笔名进行姓名合并。 3.如权利要求2所述的一种人脸数据集的构建方法, 其特征在于, 以公众任务的人物姓 名为关键词爬取人脸图像时, 由前往后至少 爬取五百张人脸图像; 同一人物姓名爬取 的人 脸图像存 储于以人物姓名命名的文件夹中。 4.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 所述人脸检测算法包 括MTCNN或dlib算法。 5.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 在执行裁剪操作之 前, 删除分辨 率小于设定阈值的人脸图像。 6.如权利 要求1所述的一种人脸数据集的构建方法, 其特征在于, 采用DBSCAN聚类算法 对所裁剪的人脸图像进行初步聚类的方法包括: 对于两张人脸图像的特征向量间的欧式距离, 对于欧式距离小于设定 阈值的人脸图像 归结为同一类别; 将人脸图像数目最多的类别作为 正样本人脸 集所在的类别。 7.如权利 要求1所述的一种人脸数据集的构建方法, 其特征在于, 采用DBSCAN聚类算法 对剔除非目标人物后的人脸图像进行二次聚类 之前, 在scikit ‑learn的DBSCAN函数中调小 聚类的eps参数, 并设置聚类的参数mi n_samples=2, 以使聚类数目两个及以上才成为 一类。 8.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 对于二 次聚类得到的 有重复人脸图像的类别, 仅保留分辨 率最高的一张人脸图像。 9.如权利要求1所述的一种人脸数据集的构建方法, 其特征在于, 所述清洗包括: 删除 非目标人物的人脸图像、 属于目标人物但人脸不完整的人脸图像、 目标人物的卡通图, 根据 图像质量和业 务需求选择性的保留或删除目标 人物的素描或油画图像。 10.一种人脸数据集的构建系统, 其特 征在于, 包括: 创建模块: 用于创建能够表明唯一人物身份信息的关键词列表,并确定各人物的标准 人脸图像; 爬取模块: 用于依据关键词列表中的关键词爬取人脸图像, 并将基于同一关键词爬取 的人脸图像存 储于同一文件夹中;权 利 要 求 书 1/2 页 2 CN 114863525 A 2人脸检测及裁剪模块: 用于对于同一文件夹 中的人脸图像分别采用人脸检测算法进行 人脸检测并裁 剪; 提取模块: 用于采用训练好的ArcFace人脸识别模型对所裁剪的人脸 图像进行特征向 量提取; 初步聚类模块: 用于基于所提取的人脸特征向量, 采用DBSCAN聚类算法对所裁剪的人 脸图像进行初步聚类, 根据初步聚类结果并参照标准人脸图像, 剔除非目标人物的人脸图 像, 保留候选人脸图像; 二次聚类模块: 用于采用DBSCAN聚类算法对候选人脸 图像进行二次聚类, 根据二次聚 类结果进行 人脸图像的去重处 理; 清洗模块: 用于对去重处 理后保留的人脸图像进行清洗, 获取 所述人脸数据集。权 利 要 求 书 2/2 页 3 CN 114863525 A 3

.PDF文档 专利 一种人脸数据集的构建方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种人脸数据集的构建方法及系统 第 1 页 专利 一种人脸数据集的构建方法及系统 第 2 页 专利 一种人脸数据集的构建方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:30:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。