(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210006038.4 (22)申请日 2022.01.05 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 (72)发明人 李小勇 霍达 高雅丽 栗仕超  李曦明 蒋哲  (74)专利代理 机构 北京挺立专利事务所(普通 合伙) 11265 代理人 高福勇 (51)Int.Cl. G06F 21/56(2013.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/00(2006.01) (54)发明名称 一种融合机器学习和深度学习的恶意软件 检测方法 (57)摘要 本发明公开了一种融合机器学习和深度学 习的 恶 意 软 件 检 测方 法 , 采 用机 器 学 习 (LightGBM)与深度学习(1D ‑CNN)相结合 的方法 作为恶意软件检测模型的基础, 该模 型可以发掘 语义的深度特征, 发掘语义上下文关系的时空序 列数据特征, 同时该模型的特征提取以及模型检 测相配合能够更好地进行误差传播, 使训练速度 更快、 效果更好。 同时对模型接收到检测样本进 行计算, 从而判别是否存在恶意软件, 比传统地 直接进入检测模型具有更高地准确率。 此外, 本 发明的方法简单, 检测模型更加轻量化, 该模型 不仅适用于Microsoft端 的恶意软件检测, 在移 动端也有较好的效果。 权利要求书2页 说明书8页 附图3页 CN 114329474 A 2022.04.12 CN 114329474 A 1.一种融合机器学习和深度学习的恶意软件检测方法, 其特 征在于, 包括以下步骤: S1、 对原始数据集进行 特征降维处 理和特征重要性 排序筛选; S2、 使用训练数据对 模型进行训练和微调, 得到训练完的检测模型并保存; S3、 利用检测模型对测试 数据进行检测, 得到检测结果。 2.根据权利要求1所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于, 步骤S1中特 征重要性 排序筛选的方法为: 1)删除大多数缺少属性 值的属性; 2)删除属性 值不平衡的属性; 3)填充样本中属性的缺失值, 选择与样本标签相同的样本集属性的众数来填充缺失 值; 4)特征属性量化编码: 从0 ‑m对离散的特征属性进行编码, 其中m表示类型总数。 3.根据权利要求1所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于, 步骤S1中特 征降维处 理的方法为: 通过LightGBM模型对特征进行训练进而对特征进行降维处理, 并按照特征重要性和特 征累计重要性对提取的特征进行top ‑k排序并输出, 作为后续恶意软件检测1D ‑CNN神经网 络模型的输入。 4.根据权利要求3所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于, 步骤S1中数据特 征由83维降到71 维。 5.根据权利要求3所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于, 步骤S1中累积重要性的设定阈值 为0.95。 6.根据权利要求3所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于, LightGBM模型中, 根据前向步 算法, 第m步的模型表示 为: fm(x)=fm‑1(x)+T(x, θm)  (2) 式中, T(x, θm)表示决策树, θm为决策树 参数, M为 树的数量; 设yi为第i个样本 的真值, fm(xi)为第i个样本 的预测值, 取损失函数为平方损失, 则损 失函数表示 为: 根据公式(4)最小化损失函数, 参数 表示为: 7.根据权利要求6所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于, 步骤S2通过多次迭代, 更新回归树, 得到最终的检测模型。 8.根据权利要求1所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于, 步骤S3利用检测模 型的测试步骤为: 将测试数据样 本通过LightGBM对样 本特征进 行降维处 理并依据特征重要性排序筛选后, 输入到1D ‑CNN神经网络, 通过1D ‑CNN神经网络进行检测, 输出检测结果。 9.根据权利要求8所述的融合机器学习和深度 学习的恶意软件检测方法, 其特征在于, 1D‑CNN神经网络由三个卷积层和最大池化层组成, 每一层都卷成乘积层的大小为5 ×1、 3×权 利 要 求 书 1/2 页 2 CN 114329474 A 21、 3×1。 10.根据权利要求9所述的融合机器学习和深度学习的恶意软件检测方法, 其特征在 于, 1D‑CNN神经网络的检测过程为: 经过最后扩展成尺寸为112维的特征向量, 经过两层稠 密连接后, 输出大小为 1×2获得低维稠密的向量, 在进 行训练时, 一次训练所选取的样本数 为128, 优化器使用Adam算法, 初始学习率为0.01, 正则 化系数为0.001, 将得到的向量输入 到1D‑CNN神经网络中, 对特 征继续降维, 由71 维的特征降维至42维后进行检测, 输出 结果。权 利 要 求 书 2/2 页 3 CN 114329474 A 3

.PDF文档 专利 一种融合机器学习和深度学习的恶意软件检测方法

安全报告 > 其他 > 文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合机器学习和深度学习的恶意软件检测方法 第 1 页 专利 一种融合机器学习和深度学习的恶意软件检测方法 第 2 页 专利 一种融合机器学习和深度学习的恶意软件检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-19 06:34:01上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。