全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211271826.2 (22)申请日 2022.10.18 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区崇文路2号 (72)发明人 谭钦红 文洪伟 黄俊  (51)Int.Cl. G06N 3/08(2006.01) (54)发明名称 基于LSQ量化的知识蒸馏方法 (57)摘要 本发明提供的基于LSQ量化的知识蒸馏方 法, 通过LSQ算法量化模型, 得到量化模型, 并通 过自学习初始化量化模型的权重、 权重步长和激 活步长, 缓解了陷入量化 感知训练陷入局部极小 值。 且进一步地, 本发明还通过2阶段知识蒸馏算 法训练模型。 第1阶段只训练量化模型的权重和 权重步长。 第2阶段训练量化模型的权重和激活 步长。 从而进一步缓解了陷入量化感知训练陷入 局部极小值。 权利要求书1页 说明书3页 附图1页 CN 115470902 A 2022.12.13 CN 115470902 A 1.一种基于LSQ 量化的知识蒸馏方法, 其特 征在于, 包括: S1: 使用LSQ量化全精度模型, 得到量化模型; 输入数据, 量化模型自学习初始化量化模 型; S2: 使用知识蒸馏算法, 2阶段训练量化模型, 第1阶段训练冻结每一层伪量化层的激活 步长, 第2阶段训练冻结每一层伪量 化层的权 重步长。 2.如权利要求1所述的基于LSQ量化的知识蒸馏方法, 其特征在于, 所述S1具体步骤包 含如下子步骤: S11: 计算权 重的量化区间, 计算激活的量 化区间。 S12: 在全量 化模型中插 入伪量化层, 得到量 化模型。 S13: 根据 所述全量化模型的权重初始化所述量化模型每一个伪量化层的权重步长; 随 机采集一小批数据数据输入到所述 量化模型中, 初始化每一个伪量 化层的激活步长 。 S14: 输入数据, 同时训练所述量化模型的权重和每一个伪量化层中的所述权重步长和 所述激活步长 。 3.如权利要求1所述的基于LSQ量化的知识蒸馏方法, 其特征在于, 所述S2具体步骤包 含如下子步骤: S21: 使用全量 化模型作为教师模型, 使用量 化模型作为学生模型。 S22: 冻结所述学生模型中冻结所有伪量化层中激活步长, 使用所述教师模型中的提供 知识辅助训练所述学生模型权 重和所有伪量 化层的权 重步长。 S23: 冻结所述学生模型中冻结所有伪量化层中权重步长, 使用所述教师模型中的提供 知识辅助训练训练所述学生模型权 重和所有伪量 化层的激活步长 。 4.如权利要求1、 2所述的基于LSQ量化的知识蒸馏方法, 其特征在于, 所述量化权重步 长sw和量化步长sx的初始化公式为: 5.如权利要求1、 3所述的基于LSQ量化的知识蒸馏方法, 所述S23、 S24中所述教师模型 中的提供知识包括: 基于软目标的知识, 基于中间特 征的知识, 基于关系的知识。权 利 要 求 书 1/1 页 2 CN 115470902 A 2基于LSQ量化的知识 蒸馏方法 技术领域 [0001]本发明涉及深度学习模型压缩领域, 尤其涉及一种基于LSQ 量化的知识蒸馏方法。 背景技术 [0002]近些年来, 深度学习由于其强大的拟合能力, 在包括图像处理、 多学科融合等多个 领域取得了成功的应用, 受到极大关注。 基于神经网络的深度学习 方法, 参数量巨大, 部署 到嵌入式设备上时, 需要消 耗掉大量的计算和内存。 因此, 知识蒸馏、 量化等模型压缩方法 得到了广泛使用。 量化算法将网络参数从32位浮点数, 量化到8位甚至更低位的整型数, 模 型参数变得 更小, 推理速度变得 更快。 [0003]LSQ(Learned  Step Size Quantization)算法作为量化感知训练中的一种, 相比 后量化算法, 拥有更高的精度, 但是需要重新训练量化后的模型。 重新训练量化后模型, 将 会面临着训练陷入局部最小值的问题。 因此, 使用知识蒸馏算法训练LSQ量化后的模型是一 种很好的方式。 发明内容 [0004]本发明要解决的主要技术问题是, 提供一种基于LS Q量化的知识蒸馏方法, 以解决 LSQ量化训练陷入局部极小值问题。 [0005]为了解决上述技术问题, 本 发明实施例提供了一种基于LSQ量化的知识蒸馏方法, 包括: [0006]S1: 使用LS Q量化全精度 模型, 得到量化模型; 输入数据, 量化模型自学习 初始化量 化模型; [0007]S2: 使用知识蒸馏算法, 2阶段训练量化模型, 第1阶段训练冻结每一层伪量化层的 激活步长, 第2阶段训练冻结每一层伪量 化层的权 重步长。 [0008]可选地, 所述 步骤S1具体包 含如下子步骤: [0009]S11: 计算权重的量化区间( ‑2k‑1, 2k‑1‑1), 计算激活的量化区间(0, 2k‑1)。 其中, k 为需要量 化的比特 数。 [0010]S12: 在全量 化模型Mfull中插入伪量化层, 得到量 化模型Mk。 [0011]S13: 根据所述全 量化模型Mfull的权重初 始化所述量化模型Mk每一个伪量化层的权 重步长sw; 随机采集一小批数据数据输入到所述量化模型Mk中, 初始化每 一个伪量化层的激 活步长sx。 [0012]S14: 输入数据, 同时训练所述量化模型Mk的权重和每一个伪量化层中的所述权重 步长sw和所述激活步长sx。 [0013]可选地, 所述 步骤S2具体包 含如下子步骤: [0014]S21: 使用全量 化模型Mfull作为教师模型, 使用量 化模型Mk作为学生模型。 [0015]S22: 冻结所述学生模型中冻结所有伪量化层中激活步长sx, 使用所述教师模型中 的提供知识辅助训练所述学生模型权 重和所有伪量 化层的权 重步长sw。说 明 书 1/3 页 3 CN 115470902 A 3

.PDF文档 专利 基于LSQ量化的知识蒸馏方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于LSQ量化的知识蒸馏方法 第 1 页 专利 基于LSQ量化的知识蒸馏方法 第 2 页 专利 基于LSQ量化的知识蒸馏方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:43:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。