全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210907654.7 (22)申请日 2022.07.29 (71)申请人 北京市商汤科技 开发有限公司 地址 100080 北京市海淀区北四环西路58 号11层1101-1117室 (72)发明人 胡琎 于泓久 王岩 秦红伟  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 专利代理师 马丽 蒋雅洁 (51)Int.Cl. G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 40/16(2022.01) (54)发明名称 神经网络结构搜索方法、 装置、 设备及存储 介质 (57)摘要 本申请实施例公开了一种神经网络结构搜 索方法、 装置、 设备及存储介质, 其中, 所述方法 包括: 对预设网络模型的超参数进行采样, 得到 至少两组样 本超参数; 基于所述至少两组样本超 参数中的每一组样本超参数和预设候选参数, 生 成所述预设网络模型的网络参数; 基于所述每一 组样本超参数, 对所述预设网络模 型的模型结构 进行调整, 得到所述每一组样 本超参数对应的待 搜索模型; 基于预设优化条件、 训练数据和所述 网络参数, 对所述待搜索模型进行训练, 得到所 述每一组样 本超参数对应的已训练待搜索模型; 按照预设指标, 对所述至少两组样 本超参数对应 的至少两个已训练待搜索模型进行结构搜索, 得 到目标模型。 权利要求书3页 说明书16页 附图4页 CN 115272825 A 2022.11.01 CN 115272825 A 1.一种神经网络结构搜索方法, 其特 征在于, 所述方法包括: 对预设网络模型的超参数进行采样, 得到 至少两组样本超参数; 基于所述至少两组样本超参数中的每一组样本超参数和预设候选参数, 生成所述预设 网络模型的网络参数; 基于所述每一组样本超参数, 对所述预设网络模型的模型结构进行调整, 得到所述每 一组样本超参数对应的待搜索模型; 基于预设优化条件、 训练数据和所述网络参数, 对所述待搜索模型进行训练, 得到所述 每一组样本超参数对应的已训练待搜索模型; 按照预设指标, 对所述至少两组样本超参数对应的至少两个已训练待搜索模型进行结 构搜索, 得到目标模型。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述至少两组样本超参数中的每 一组样本超参数和预设候选参数, 生成所述预设网络模型的网络参数, 包括: 确定本次训练对应的参数生成模型; 其中, 所述参数生成模型包括: 已训练的参数生成 模型或未训练的参数生成模型; 将所述每一组样本超参数和所述预设候选参数, 输入所述本次训练对应的参数生成模 型, 生成所述网络参数。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述每一组样本超参数和所述预设 候选参数, 输入所述本次训练对应的参数生成模型, 生成所述网络参数, 包括: 采用所述本次训练对应的参数生成模型对所述每一组样本超参数进行特征提取, 得到 参数特征; 将所述参数特征和所述预设候选参数进行融合, 得到所述网络参数。 4.根据权利要求1至3任一项所述的方法, 其特征在于, 所述基于所述每一组样本超参 数, 对所述预设网络模型 的模型结构进行调整, 得到所述每一组样本超参数对应的待搜索 模型, 包括: 在所述预设网络模型中, 确定与所述每一组样本超参数的类型匹配的候选模型 结构; 在所述预设网络模型中, 基于所述每一组样本超参数的值对所述候选模型结构进行调 整, 得到所述每一组样本超参数对应的所述待搜索模型。 5.根据权利要求1至4任一项所述的方法, 其特征在于, 在所述预设优化条件包括预设 优化函数的情况下, 所述基于预设优化条件、 训练数据和所述网络参数, 对所述待搜索模型 进行训练, 得到所述每一组样本超参数对应的已训练待搜索模型, 包括: 将所述网络参数 赋予所述待搜索模型; 基于所述训练数据, 确定所述待搜索模型的损失; 基于所述损失和所述预设优化 函数, 确定所述待搜索模型的梯度; 基于所述梯度, 对所述待搜索模型中的所述网络参数进行单次训练, 得到所述每一组 样本超参数对应的已训练待搜索模型。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述损 失和所述预设优化函数, 确定所述待搜索模型的梯度之后, 所述方法还 包括: 基于所述梯度, 对生成所述网络参数的参数生成模型进行训练, 得到已训练的参数生 成模型;权 利 要 求 书 1/3 页 2 CN 115272825 A 2将所述已训练的参数生成模型作为下一次训练对应的参数生成模型。 7.根据权利要求1至6任一项所述的方法, 其特征在于, 所述按照预设指标, 对所述至少 两组样本超参数对应的至少两个已训练待搜索模型进行 结构搜索, 得到目标模型, 包括: 在所述至少两个已训练待搜索模型中, 确定满足所述预设指标的目标待搜索模型; 基于所述目标待搜索模型的目标超参数, 部署所述目标模型。 8.根据权利要求7所述的方法, 其特征在于, 所述在所述至少两个已训练待搜索模型 中, 确定满足所述预设指标的目标待搜索模型之前, 所述方法还 包括: 获取预设验证数据集; 所述在所述至少两个 已训练待搜索模型中, 确定满足所述预设指标的目标待搜索模 型, 包括: 确定每一已训练待搜索模型对应的一组样本超参数的代价 函数; 基于所述每一已训练待搜索模型的代价函数和所述预设验证数据集, 确定所述每一已 训练待搜索模型的网络性能; 将所述网络性能满足所述预设指标的已训练待搜索模型, 确定为所述目标待搜索模 型。 9.根据权利要求7所述的方法, 其特征在于, 所述基于所述目标待搜索模型的目标超参 数, 部署所述目标模型, 包括: 确定末次训练得到的目标已训练的参数生成模型; 将所述目标超参数和所述预设候选参数输入所述目标已训练的参数生成模型, 生成待 部署网络参数; 将所述待部署网络参数赋予所述目标待搜索模型, 得到所述目标模型, 并部署所述目 标模型。 10.根据权利要求1至8任一项所述的方法, 其特征在于, 所述对预设网络模型的超参数 进行采样, 得到 至少两组样本超参数, 包括: 确定所述预设网络模型的超参数的搜索空间; 基于所述搜索空间的边界信息, 确定采样组合; 基于所述采样组合, 在所述搜索空间中进行至少两组采样, 得到所述至少两组样本超 参数。 11.一种神经网络结构搜索装置, 其特 征在于, 包括: 第一采样模块, 用于对预设网络模型的超参数进行采样, 得到 至少两组样本超参数; 第一生成模块, 用于基于所述至少两组样本超参数中的每一组样本超参数和预设候选 参数, 生成所述预设网络模型的网络参数; 第一调整模块, 用于基于所述每一组样本超参数, 对所述预设网络模型的模型结构进 行调整, 得到所述每一组样本超参数对应的待搜索模型; 第一训练模块, 用于基于预设优化条件、 训练数据和所述网络参数, 对所述待搜索模型 进行训练, 得到所述每一组样本超参数对应的已训练待搜索模型; 第一搜索模块, 用于按照预设指标, 对所述至少两组样本超参数对应的至少两个已训 练待搜索模型进行 结构搜索, 得到目标模型。 12.一种计算机设备, 包括存储器和处理器, 所述存储器存储有可在处理器上运行的计权 利 要 求 书 2/3 页 3 CN 115272825 A 3

.PDF文档 专利 神经网络结构搜索方法、装置、设备及存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 神经网络结构搜索方法、装置、设备及存储介质 第 1 页 专利 神经网络结构搜索方法、装置、设备及存储介质 第 2 页 专利 神经网络结构搜索方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:16:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。