专利基于细粒度结构化稀疏的在线训练方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111666701.5 (22)申请日 2021.12.31 (71)申请人中国科学院计算技术研究所地址 100080 北京市海淀区中关村科学院南路6号 (72)发明人张蕊　朱时兵　王伟卓　张曦珊　 (74)专利代理机构北京律诚同业知识产权代理有限公司 1 1006 代理人祁建国　陈思远 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01) (54)发明名称基于细粒度结构化稀疏的在线训练方法及系统 (57)摘要本发明提出一种基于细粒度结构化稀疏的在线训练方法和系统，包括：基于预设学习率和权重梯度，训练稠密模型；对该稠密模型的权重进行细粒度结构化稀疏，得到稀疏掩码，并基于该稀疏掩码训练稀疏模型，且在训练该稀疏模型的过程中更新该稀疏掩码和该稀疏模型的模型权重；固定该稀疏模型的网络结构再次训练该稀疏模型，且在再次训练该稀疏模型过程中仅更新该稀疏模型的模型权重，保存完成经过再次训练的稀疏模型的模型权重和稀疏掩码作为在线训练结果。稀疏模型比稠密模型的规模小，比稠密模型的通道数也小。在部署模型时采用稀疏模型，由于稀疏模型规模小，可以有效减少计算量，达到加速模型运行速度的技术效果。权利要求书3页说明书8页附图1页 CN 114429206 A 2022.05.03 CN 114429206 A 1.一种基于细粒度结构化稀疏的在线训练方法，其特征在于，包括：步骤1、基于预设学习率和权重梯度，训练稠密模型；步骤2、对该稠密模型的权重进行细粒度结构化稀疏，得到稀疏掩码，并基于该稀疏掩码训练稀疏模型，且在训练该稀疏模型的过程中更新该稀疏掩码和该稀疏模型的模型权重；步骤3、固定该稀疏模型的网络结构再次训练该稀疏模型，且在再次训练该稀疏模型过程中仅更新该稀疏模型的模型权重，保存完成经过再次训练的稀疏模型的模型权重和稀疏掩码作为在线训练结果。 2.如权利要求1所述的基于细粒度结构化稀疏的在线训练方法，其特征在于，步骤1包括基于下式训练并更新稠密模型的权重：式中模型的权重为Wdense，学习率为l，权重的梯度为 3.如权利要求1所述的基于细粒度结构化稀疏的在线训练方法，其特征在于，步骤1中该稠密模型的稀疏掩码为全1矩阵。 4.如权利要求1所述的基于细粒度结构化稀疏的在线训练方法，其特征在于，该步骤2 包括：步骤21、获取该稠密模型的权重Wdense和学习率 l；步骤22、对于Wdense，使用多种预设模板分别计算每组权重在每种模板下权重绝对值的累加和，取所有预设模板中累加和最大的模板作为该组权重的稀疏掩码m，并得到稀疏权重 Wunpruned＝Wdense⊙m，其中⊙表示逐元素相乘，权重中被稀疏掉的部分记录为 Wpruned＝0；步骤23、利用稀疏权重Wunpruned执行网络的前向传播，前向传播公式为： xi+1＝xi*Wunpruned 式中xi为网络中第i层的输入；步骤24、该网络执行反向传播，利用网络中第i+1层传播来的topdiff，记为计算第i层的bot tomdiff，记为和权重的梯度公式为：步骤25、根据权重的梯度和当前的稀疏掩码更新稀疏权重Wunpruned和权重中被稀疏掉的部分Wpruned，公式为：权　利　要　求　书 1/3 页 2 CN 114429206 A 2判断此时是否为一个epoc h的结束，若是，则执行步骤26，否则再次执行该步骤23；步骤26、利用稀疏权重Wunpruned和权重中被稀疏掉的部分Wpruned对稀疏掩码进行更新，首先将Wunpruned和Wpruned相加得到Wdense，然后使用所有预设模板，分别计算Wdense中每组权重在每种预设模板下权重绝对值的累加和，取所有预设模板中累加和最大的模板作为该组权重的稀疏掩码，由此获得更新后的稀疏掩码m；步骤27、利用稀疏掩码m更新 Wunpruned和Wpruned，公式为 Wunpruned＝Wdense⊙m Wpruned＝0 判断此时是否达到设定迭代次数，若是，则执行步骤3，否则再次该步骤23；该步骤3包括通过下式固定稀疏掩码，更新稀疏模型权重： 5.如权利要求1所述的基于细粒度结构化稀疏的在线训练方法，其特征在于，步骤1中该稠密模型为用于图像分类的卷积神经网络；该步骤3包括基于在线训练结果构建稀疏图像分类网络，以对待分类图像进行分类。 6.一种基于细粒度结构化稀疏的在线训练系统，其特征在于，包括：初始模块，用于以预设学习率和权重梯度，训练稠密模型；第一训练模块，用于对该稠密模型的权重进行细粒度结构化稀疏，得到稀疏掩码，并基于该稀疏掩码训练稀疏模型，且在训练该稀疏模型的过程中更新该稀疏掩码和该稀疏模型的模型权重；第二训练模块，用于固定该稀疏模型的网络结构再次训练该稀疏模型，且在再次训练该稀疏模型过程中仅更新该稀疏模型的模型权重，保存完成经过再次训练的稀疏模型的模型权重和稀疏掩码作为在线训练结果。 7.如权利要求6所述的基于细粒度结构化稀疏的在线训练系统，其特征在于，初始模块包括基于下式训练并更新稠密模型的权重：式中模型的权重为Wdense，学习率为l，权重的梯度为 8.如权利要求6所述的基于细粒度结构化稀疏的在线训练系统，其特征在于，初始模块中该稠密模型的稀疏掩码为全1矩阵。 9.如权利要求6所述的基于细粒度结构化稀疏的在线训练系统，其特征在于，该第一训练模块，用于：获取该稠密模型的权重Wdense和学习率 l；对于Wdense，使用多种预设模板分别计算每组权重在每种模板下权重绝对值的累加和，取所有预设模板中累加和最大的模板作为该组权重的稀疏掩码m，并得到稀疏权重Wunpruned ＝Wdense⊙m，其中⊙表示逐元素相乘，权重中被稀疏掉的部分记录为 Wpruned＝0；权　利　要　求　书 2/3 页 3 CN 114429206 A 3

专利 基于细粒度结构化稀疏的在线训练方法及系统

专利基于细粒度结构化稀疏的在线训练方法及系统