专利 一种融合机器学习和深度学习的恶意软件检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210006038.4 (22)申请日 2022.01.05 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人李小勇　霍达　高雅丽　栗仕超　李曦明　蒋哲　 (74)专利代理机构北京挺立专利事务所(普通合伙) 11265 代理人高福勇 (51)Int.Cl. G06F 21/56(2013.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/00(2006.01) (54)发明名称一种融合机器学习和深度学习的恶意软件检测方法 (57)摘要本发明公开了一种融合机器学习和深度学习的恶意软件检测方法，采用机器学习 (LightGBM)与深度学习(1D ‑CNN)相结合的方法作为恶意软件检测模型的基础，该模型可以发掘语义的深度特征，发掘语义上下文关系的时空序列数据特征，同时该模型的特征提取以及模型检测相配合能够更好地进行误差传播，使训练速度更快、效果更好。同时对模型接收到检测样本进行计算，从而判别是否存在恶意软件，比传统地直接进入检测模型具有更高地准确率。此外，本发明的方法简单，检测模型更加轻量化，该模型不仅适用于Microsoft端的恶意软件检测，在移动端也有较好的效果。权利要求书2页说明书8页附图3页 CN 114329474 A 2022.04.12 CN 114329474 A 1.一种融合机器学习和深度学习的恶意软件检测方法，其特征在于，包括以下步骤： S1、对原始数据集进行特征降维处理和特征重要性排序筛选； S2、使用训练数据对模型进行训练和微调，得到训练完的检测模型并保存； S3、利用检测模型对测试数据进行检测，得到检测结果。 2.根据权利要求1所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于，步骤S1中特征重要性排序筛选的方法为： 1)删除大多数缺少属性值的属性； 2)删除属性值不平衡的属性； 3)填充样本中属性的缺失值，选择与样本标签相同的样本集属性的众数来填充缺失值； 4)特征属性量化编码：从0 ‑m对离散的特征属性进行编码，其中m表示类型总数。 3.根据权利要求1所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于，步骤S1中特征降维处理的方法为：通过LightGBM模型对特征进行训练进而对特征进行降维处理，并按照特征重要性和特征累计重要性对提取的特征进行top ‑k排序并输出，作为后续恶意软件检测1D ‑CNN神经网络模型的输入。 4.根据权利要求3所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于，步骤S1中数据特征由83维降到71 维。 5.根据权利要求3所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于，步骤S1中累积重要性的设定阈值为0.95。 6.根据权利要求3所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于， LightGBM模型中，根据前向步算法，第m步的模型表示为： fm(x)＝fm‑1(x)+T(x， θm) (2) 式中， T(x， θm)表示决策树， θm为决策树参数， M为树的数量；设yi为第i个样本的真值， fm(xi)为第i个样本的预测值，取损失函数为平方损失，则损失函数表示为：根据公式(4)最小化损失函数，参数表示为： 7.根据权利要求6所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于，步骤S2通过多次迭代，更新回归树，得到最终的检测模型。 8.根据权利要求1所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于，步骤S3利用检测模型的测试步骤为：将测试数据样本通过LightGBM对样本特征进行降维处理并依据特征重要性排序筛选后，输入到1D ‑CNN神经网络，通过1D ‑CNN神经网络进行检测，输出检测结果。 9.根据权利要求8所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于， 1D‑CNN神经网络由三个卷积层和最大池化层组成，每一层都卷成乘积层的大小为5 ×1、 3×权　利　要　求　书 1/2 页 2 CN 114329474 A 21、 3×1。 10.根据权利要求9所述的融合机器学习和深度学习的恶意软件检测方法，其特征在于， 1D‑CNN神经网络的检测过程为：经过最后扩展成尺寸为112维的特征向量，经过两层稠密连接后，输出大小为 1×2获得低维稠密的向量，在进行训练时，一次训练所选取的样本数为128，优化器使用Adam算法，初始学习率为0.01，正则化系数为0.001，将得到的向量输入到1D‑CNN神经网络中，对特征继续降维，由71 维的特征降维至42维后进行检测，输出结果。权　利　要　求　书 2/2 页 3 CN 114329474 A 3

专利 一种融合机器学习和深度学习的恶意软件检测方法

专利一种融合机器学习和深度学习的恶意软件检测方法