专利 基于LSQ量化的知识蒸馏方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211271826.2 (22)申请日 2022.10.18 (71)申请人重庆邮电大学地址 400065 重庆市南岸区崇文路2号 (72)发明人谭钦红　文洪伟　黄俊　 (51)Int.Cl. G06N 3/08(2006.01) (54)发明名称基于LSQ量化的知识蒸馏方法 (57)摘要本发明提供的基于LSQ量化的知识蒸馏方法，通过LSQ算法量化模型，得到量化模型，并通过自学习初始化量化模型的权重、权重步长和激活步长，缓解了陷入量化感知训练陷入局部极小值。且进一步地，本发明还通过2阶段知识蒸馏算法训练模型。第1阶段只训练量化模型的权重和权重步长。第2阶段训练量化模型的权重和激活步长。从而进一步缓解了陷入量化感知训练陷入局部极小值。权利要求书1页说明书3页附图1页 CN 115470902 A 2022.12.13 CN 115470902 A 1.一种基于LSQ 量化的知识蒸馏方法，其特征在于，包括： S1：使用LSQ量化全精度模型，得到量化模型；输入数据，量化模型自学习初始化量化模型； S2：使用知识蒸馏算法， 2阶段训练量化模型，第1阶段训练冻结每一层伪量化层的激活步长，第2阶段训练冻结每一层伪量化层的权重步长。 2.如权利要求1所述的基于LSQ量化的知识蒸馏方法，其特征在于，所述S1具体步骤包含如下子步骤： S11：计算权重的量化区间，计算激活的量化区间。 S12：在全量化模型中插入伪量化层，得到量化模型。 S13：根据所述全量化模型的权重初始化所述量化模型每一个伪量化层的权重步长；随机采集一小批数据数据输入到所述量化模型中，初始化每一个伪量化层的激活步长。 S14：输入数据，同时训练所述量化模型的权重和每一个伪量化层中的所述权重步长和所述激活步长。 3.如权利要求1所述的基于LSQ量化的知识蒸馏方法，其特征在于，所述S2具体步骤包含如下子步骤： S21：使用全量化模型作为教师模型，使用量化模型作为学生模型。 S22：冻结所述学生模型中冻结所有伪量化层中激活步长，使用所述教师模型中的提供知识辅助训练所述学生模型权重和所有伪量化层的权重步长。 S23：冻结所述学生模型中冻结所有伪量化层中权重步长，使用所述教师模型中的提供知识辅助训练训练所述学生模型权重和所有伪量化层的激活步长。 4.如权利要求1、 2所述的基于LSQ量化的知识蒸馏方法，其特征在于，所述量化权重步长sw和量化步长sx的初始化公式为： 5.如权利要求1、 3所述的基于LSQ量化的知识蒸馏方法，所述S23、 S24中所述教师模型中的提供知识包括：基于软目标的知识，基于中间特征的知识，基于关系的知识。权　利　要　求　书 1/1 页 2 CN 115470902 A 2基于LSQ量化的知识蒸馏方法技术领域 [0001]本发明涉及深度学习模型压缩领域，尤其涉及一种基于LSQ 量化的知识蒸馏方法。背景技术 [0002]近些年来，深度学习由于其强大的拟合能力，在包括图像处理、多学科融合等多个领域取得了成功的应用，受到极大关注。基于神经网络的深度学习方法，参数量巨大，部署到嵌入式设备上时，需要消耗掉大量的计算和内存。因此，知识蒸馏、量化等模型压缩方法得到了广泛使用。量化算法将网络参数从32位浮点数，量化到8位甚至更低位的整型数，模型参数变得更小，推理速度变得更快。 [0003]LSQ(Learned Step Size Quantization)算法作为量化感知训练中的一种，相比后量化算法，拥有更高的精度，但是需要重新训练量化后的模型。重新训练量化后模型，将会面临着训练陷入局部最小值的问题。因此，使用知识蒸馏算法训练LSQ量化后的模型是一种很好的方式。发明内容 [0004]本发明要解决的主要技术问题是，提供一种基于LS Q量化的知识蒸馏方法，以解决 LSQ量化训练陷入局部极小值问题。 [0005]为了解决上述技术问题，本发明实施例提供了一种基于LSQ量化的知识蒸馏方法，包括： [0006]S1：使用LS Q量化全精度模型，得到量化模型；输入数据，量化模型自学习初始化量化模型； [0007]S2：使用知识蒸馏算法， 2阶段训练量化模型，第1阶段训练冻结每一层伪量化层的激活步长，第2阶段训练冻结每一层伪量化层的权重步长。 [0008]可选地，所述步骤S1具体包含如下子步骤： [0009]S11：计算权重的量化区间( ‑2k‑1， 2k‑1‑1)，计算激活的量化区间(0， 2k‑1)。其中， k 为需要量化的比特数。 [0010]S12：在全量化模型Mfull中插入伪量化层，得到量化模型Mk。 [0011]S13：根据所述全量化模型Mfull的权重初始化所述量化模型Mk每一个伪量化层的权重步长sw；随机采集一小批数据数据输入到所述量化模型Mk中，初始化每一个伪量化层的激活步长sx。 [0012]S14：输入数据，同时训练所述量化模型Mk的权重和每一个伪量化层中的所述权重步长sw和所述激活步长sx。 [0013]可选地，所述步骤S2具体包含如下子步骤： [0014]S21：使用全量化模型Mfull作为教师模型，使用量化模型Mk作为学生模型。 [0015]S22：冻结所述学生模型中冻结所有伪量化层中激活步长sx，使用所述教师模型中的提供知识辅助训练所述学生模型权重和所有伪量化层的权重步长sw。说　明　书 1/3 页 3 CN 115470902 A 3

专利 基于LSQ量化的知识蒸馏方法

专利基于LSQ量化的知识蒸馏方法