(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210006038.4
(22)申请日 2022.01.05
(71)申请人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
(72)发明人 李小勇 霍达 高雅丽 栗仕超
李曦明 蒋哲
(74)专利代理 机构 北京挺立专利事务所(普通
合伙) 11265
代理人 高福勇
(51)Int.Cl.
G06F 21/56(2013.01)
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06N 5/00(2006.01)
(54)发明名称
一种融合机器学习和深度学习的恶意软件
检测方法
(57)摘要
本发明公开了一种融合机器学习和深度学
习的 恶 意 软 件 检 测方 法 , 采 用机 器 学 习
(LightGBM)与深度学习(1D ‑CNN)相结合 的方法
作为恶意软件检测模型的基础, 该模 型可以发掘
语义的深度特征, 发掘语义上下文关系的时空序
列数据特征, 同时该模型的特征提取以及模型检
测相配合能够更好地进行误差传播, 使训练速度
更快、 效果更好。 同时对模型接收到检测样本进
行计算, 从而判别是否存在恶意软件, 比传统地
直接进入检测模型具有更高地准确率。 此外, 本
发明的方法简单, 检测模型更加轻量化, 该模型
不仅适用于Microsoft端 的恶意软件检测, 在移
动端也有较好的效果。
权利要求书2页 说明书8页 附图3页
CN 114329474 A
2022.04.12
CN 114329474 A
1.一种融合机器学习和深度学习的恶意软件检测方法, 其特 征在于, 包括以下步骤:
S1、 对原始数据集进行 特征降维处 理和特征重要性 排序筛选;
S2、 使用训练数据对 模型进行训练和微调, 得到训练完的检测模型并保存;
S3、 利用检测模型对测试 数据进行检测, 得到检测结果。
2.根据权利要求1所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于,
步骤S1中特 征重要性 排序筛选的方法为:
1)删除大多数缺少属性 值的属性;
2)删除属性 值不平衡的属性;
3)填充样本中属性的缺失值, 选择与样本标签相同的样本集属性的众数来填充缺失
值;
4)特征属性量化编码: 从0 ‑m对离散的特征属性进行编码, 其中m表示类型总数。
3.根据权利要求1所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于,
步骤S1中特 征降维处 理的方法为:
通过LightGBM模型对特征进行训练进而对特征进行降维处理, 并按照特征重要性和特
征累计重要性对提取的特征进行top ‑k排序并输出, 作为后续恶意软件检测1D ‑CNN神经网
络模型的输入。
4.根据权利要求3所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于,
步骤S1中数据特 征由83维降到71 维。
5.根据权利要求3所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于,
步骤S1中累积重要性的设定阈值 为0.95。
6.根据权利要求3所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于,
LightGBM模型中, 根据前向步 算法, 第m步的模型表示 为:
fm(x)=fm‑1(x)+T(x, θm) (2)
式中, T(x, θm)表示决策树, θm为决策树 参数, M为 树的数量;
设yi为第i个样本 的真值, fm(xi)为第i个样本 的预测值, 取损失函数为平方损失, 则损
失函数表示 为:
根据公式(4)最小化损失函数, 参数
表示为:
7.根据权利要求6所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于,
步骤S2通过多次迭代, 更新回归树, 得到最终的检测模型。
8.根据权利要求1所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于,
步骤S3利用检测模 型的测试步骤为: 将测试数据样 本通过LightGBM对样 本特征进 行降维处
理并依据特征重要性排序筛选后, 输入到1D ‑CNN神经网络, 通过1D ‑CNN神经网络进行检测,
输出检测结果。
9.根据权利要求8所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于,
1D‑CNN神经网络由三个卷积层和最大池化层组成, 每一层都卷成乘积层的大小为5 ×1、 3×权 利 要 求 书 1/2 页
2
CN 114329474 A
21、 3×1。
10.根据权利要求9所述的融合机器学习和深度学习的恶意软件检测方法, 其特征在
于, 1D‑CNN神经网络的检测过程为: 经过最后扩展成尺寸为112维的特征向量, 经过两层稠
密连接后, 输出大小为 1×2获得低维稠密的向量, 在进 行训练时, 一次训练所选取的样本数
为128, 优化器使用Adam算法, 初始学习率为0.01, 正则 化系数为0.001, 将得到的向量输入
到1D‑CNN神经网络中, 对特 征继续降维, 由71 维的特征降维至42维后进行检测, 输出 结果。权 利 要 求 书 2/2 页
3
CN 114329474 A
3
专利 一种融合机器学习和深度学习的恶意软件检测方法
安全报告 >
其他 >
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-19 06:34:01上传分享