全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211388209.0 (22)申请日 2022.11.08 (71)申请人 江苏智云天工科技有限公司 地址 213000 江苏省常州市 常州钟楼经济 开发区玉龙南路280号常州 大数据产 业园4号楼2楼201室 (72)发明人 常琪 赵何 张志琦  (74)专利代理 机构 上海锻创知识产权代理有限 公司 314 48 专利代理师 陈少凌 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 9/445(2018.01) G06F 9/50(2006.01)G06F 16/172(2019.01) G06F 16/182(2019.01) (54)发明名称 基于工业质检领域机器学习模型的产品缺 陷检测方法 (57)摘要 本发明提供了一种基于工业质检领域机器 学习模型的产品缺陷检测方法, 包括: 步骤1: 将 分布式训练模 型存储至分布式存储服务器中; 步 骤2: 将训练数据集和验证数据集存储至分布式 存储服务器中; 步骤3: 利用训练数据集对分布式 训练模型分别进行训练, 并利用验证数据集进行 验证; 步骤4: 利用训练后的分布式机器学习模型 对产品缺陷进行检测。 权利要求书3页 说明书12页 附图1页 CN 115438805 A 2022.12.06 CN 115438805 A 1.一种基于 工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 包括: 步骤1: 将分布式训练模型存 储至分布式存 储服务器中; 步骤2: 将训练数据集和验证数据集存 储至分布式存 储服务器中; 步骤3: 利用训练数据集对分布式训练模型分别进行训练, 并利用验证数据集进行验 证; 步骤4: 利用训练后的分布式机器学习模型对产品缺陷进行检测。 2.根据权利要求1所述的基于工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 包括: 步骤S1: 根据当前训练任务ID生成Yaml参数文件存储路径, 将Yaml参数文件保存至分 布式存储服务器对应的存 储路径中; 步骤S2: 将Yaml参数文件在分布式存储服务器对应的存储路径写入分布式训练容器的 环境变量中, 每个分布式训练容器启动后, 根据分布式训练容器环境变量中的Yaml参数文 件路径获取当前训练任务所需要的参数; 步骤S3: 将训练数据集和验证数据集存储至分布式存储服务器中, 根据Yaml参数文件 解析训练数据集和验证数据集的位置, 获取 所需要的训练数据集; 步骤S4: 根据Yaml参数文件获取预训练模型在分布式服务器中的存储路径, 并根据存 储路径加载预训练模型为单机训练模型, 将单机训练模型转换为分布式训练任务所需要的 分布式训练模型, 将分布式训练模型分配至相应的分布式训练容器中; 步骤S5: 将获取的训练数据集采用分布式数据采样器给每个分布式训练容器分配当前 训练数据集的子集; 步骤S6: 利用训练数据集的子集对每个分布式训练容器中的分布式训练模型进行训 练; 步骤S7: 利用验证数据集对训练后的分布式训练模型进行验证。 3.根据权利要求2所述的基于工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 所述Yaml参数文件包括: 通过Web页面设置可自主调节的参数, 并利用设置的可自 主调节的参数在Spr ingboot后端服务中对相应的默认 值进行覆盖, 结合参数服务器中的其 他参数, 生成完成的参数列表, 并将完整参数列表写入Yaml 参数文件中。 4.根据权利要求2所述的基于工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 所述 步骤S3采用: 步骤S3.1: 将所要标注的图片存储至分布式存储服务器上, 通过Web页面逐张加载分布 式存储服务器上的图片, 并进行质检缺陷标注, 将图片以及标注JSON文件上传至分布式存 储服务器中; 步骤S3.2: 将分布式存储服务器中标注好的图片按照预设比例进行划分, 得到训练数 据集和验证数据集, 并将训练数据集和验证数据集分开存储, 将训练数据集和验证数据集 的存储路径保存至 Yaml参数文件中; 步骤S3.3: 将分布式存储服务器 中已经标注好质检缺陷图片所在的路径挂载到分布式 训练容器启动后所在的物理服务器上, 使得分布式训练启动的每个容器都能访问到训练所 需要的训练数据集和验证数据集, 并对分布式存储服务器的文件进行缓存, 加快训练加载 图片速度;权 利 要 求 书 1/3 页 2 CN 115438805 A 2步骤S3.4: 根据Yaml 参数文件解析训练数据集和验证数据集的位置, 获取训练数据集。 5.根据权利要求2所述的基于工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 所述步骤S4采用: 单机训练模型根据不同机器学习训练框架对应的方法转换为分 布式训练模型, 实现模型间梯度数据交换。 6.根据权利要求2所述的基于工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 基于不同训练速度要求, 自定义使用GPU的数量以及资源的自动调度; 所述自定义使用GPU的数量采用: 根据不同训练速度要求, 通过Web页面设置GPU数量, 通过请求 参数传给后端, 并利用设置的GPU数量对参数文件中默认的GPU数量进行覆盖; 所述资源的自动调度采用: 在kubernetes集群中部署kubeflow, 将分布式训练代码打 包到docker镜像中, 使用kubernetes的自定义资源pytrochjob来启动镜像, 实现质检模型 训练的部署, 利用kuber netes的容器自动调度、 自动编排技术, 将质检模 型训练任务自动调 度到有空 闲资源的多台机器上, 实现分布式训练资源的自动调度。 7.根据权利要求2所述的基于工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 将分布式训练任务的容器Ip和端口以及当前容器的序号写入环境变量中实现容器 间的动态发现和数据传递、 主 进程容器的模型保存; 所述将分布式训练任务的容器Ip和端口以及当前容器的序号写入环境变量中实现容 器间的动态发现和数据传递采用: 将分布式训练任务的容器Ip和端口写入环境变量中, 使 得分布式训练的主进程和从属工作进程能够互相发现, 从而判断当前任务整体的执行情况 来决定是否要终止当前任务, 以及在每一阶段训练完成后, 主进程和从属工作进程能够进 行数据传递, 保证不同容器间梯度参数的一 致性; 所述将分布式训练任务的容器Ip和端口以及当前容器的序号写入环境变量实现主进 程容器的模型保存采用: 在分布式训练启动后, 初始 化分布式训练的进程组, 在进程组中给 主进程分配序号RANK为0, 从属工作进程的RANK序号为1, 其他从属工作进程的RANK序号依 次增加, 使 得当前进程判断序号 RANK是否为0, 判断自己是否是主进程, 若 是主进程, 通过判 断, 在相应位置执 行相关代码。 8.根据权利要求2所述的基于工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 在容器启动之前, 给分布式训练的每一个容器设置共享内存, 当某一个进程从分布 式存储中加载数据到内存中后, 其他进程则不必再次加载数据到内存, 而是直接加载共享 内存中的数据, 减少加载 数据的次数和内存间数据拷贝的次数, 从而加快 数据加载速度。 9.根据权利要求2所述的基于工业质检领域机器学习模型的产品缺陷检测方法, 其特 征在于, 保存训练过程数据并使用数据可视化工具对训练损失和训练准确性进行展示; 加载参数文件, 并解析保存训练过程数据的文件路径, 在训练过程, 通过训练过程数据 衡量训练损失和训练准确度的指标, 并保存到分布式存 储系统提供的文件路径中; 在分布式训练开始之前, 启动用于数据可视化展示训练指标的服务, 生成访 问服务的 路径, 并给服务设置所需要读取的训练过程文件所在的目录参数, 在WEB页面, 通过浏览器 跳转到可视化 服务启动后自动生成的访问路径, 实时查看训练指标, 判断训练情况。 10.根据权利要求2所述的基于工业质检领域机器学习 模型的产品缺陷检测方法, 其特 征在于, 发送训练通知, 实时监控训练进度; 每个进程通过获取当前容器的环境变量来获取当前进程的RANK序号, 并给kafka消息权 利 要 求 书 2/3 页 3 CN 115438805 A 3

PDF文档 专利 基于工业质检领域机器学习模型的产品缺陷检测方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于工业质检领域机器学习模型的产品缺陷检测方法 第 1 页 专利 基于工业质检领域机器学习模型的产品缺陷检测方法 第 2 页 专利 基于工业质检领域机器学习模型的产品缺陷检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。