专利 面向API序列恶意软件检测模型的黑盒攻击与防御方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211078608.7 (22)申请日 2022.09.05 (65)同一申请的已公布的文献号申请公布号 CN 115168859 A (43)申请公布日 2022.10.11 (73)专利权人浙江工业大学地址 310014 浙江省杭州市下城区潮王路 18号 (72)发明人吕明琪　邱镠滔　朱添田　陈铁明　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师陈升华 (51)Int.Cl. G06F 21/56(2013.01) G06N 20/00(2019.01)(56)对比文件 CN 110826059 A,2020.02.21 CN 114143024 A,202 2.03.04 CN 112231703 A,2021.01.15 US 2020344261 A1,2020.10.2 9 陈铁明等.基于API调用序列的Andro id恶意代码检测方法研究. 《浙江工业大学学报》 .2018, 第46卷(第2期), 张岚等.基于注意力机制的恶意软件调用序列检测. 《计算机科学》 .2019,(第12期), 刘西蒙等.深度学习中的对抗攻击与防御. 《网络与信息安全学报》 .2020,(第0 5期), 审查员王青 (54)发明名称面向API序列恶意软件检测模型的黑盒攻击与防御方法 (57)摘要本发明公开了一种面向API序列恶意软件检测模型的黑盒攻击与防御方法，包括：面向黑盒的代理模型构建；基于扰动的生成模型构建：通过训练生成模型，在恶意软件的API序列中添加噪声API来对其进行扰动；对抗训练：通过对抗训练，使得代理模型能够更好地模拟被攻击模型，使得生成模型生成的恶意软件API序列能够更不容易被代理模拟检测出来；模型的防御性训练：通过加入生成模型生成的恶意样本来对检测模型进行再训练，使得其对对抗样本具有更强的鲁棒性。本发明通过模拟攻击者来生成对抗样本，并基于对抗样本来对恶意软件检测模型进行再训练，可大大提高恶意软件检测模型对恶意对抗攻击的防御能力。权利要求书1页说明书5页附图2页 CN 115168859 B 2022.11.29 CN 115168859 B 1.一种面向API序列恶意软件检测模型的黑盒攻击与防御方法，其特征在于，包括以下步骤： 1） API序列抽取； 2）构建面向黑盒的代理模型： 3）构建生成模型，具体包括：将长度为N的API序列进行分割生成N个API子序列，子序列经过框架后得到N个噪声API 序列，再将N个噪声API序列插入到步骤1）获得长度为N的API序列中，获得对抗样本API序列； 4）从恶意软件集中获取对抗训练的恶意样本，从良性软件集中获取良性样本，将对抗训练的恶意样本输入到步骤3）中生成模型中，得到对抗样本API序列，将对抗样本API序列和良性样本混合，作为训练集，输入到黑盒模型中，得到训练标签，利用训练集和训练标签训练步骤2）中的面向黑盒的代理模型，根据代理模型损失函数更新面向黑盒的代理模型中的参数，采用面向黑盒的代理模型更新后的参数以及根据生成模型的损失函数更新生成模型中的参数，迭代更新，得到最终的生成模型； 5）步骤4）最终的生成模型生成对抗样本，输入到黑盒模型中，将黑盒模型未能正确分类的样本作为防御性训练的恶意样本，输入到黑盒模型中进行防御性训练，将训练后的黑盒模型对基于API序列恶意软件检测模型的黑盒攻击的黑盒攻击进行防御。 2.根据权利要求1所述的面向API序列恶意软件检测模型的黑盒攻击与防御方法，其特征在于，步骤1）中， API序列抽取具体包括：采用沙箱对软件样本进行模拟运行，抽取得到 API序列。 3.根据权利要求1所述的面向API序列恶意软件检测模型的黑盒攻击与防御方法，其特征在于，步骤2）中，所述的面向黑盒的代理模型依次包括：输入层、嵌入层、循环层以及输出分类层。 4.根据权利要求3所述的面向API序列恶意软件检测模型的黑盒攻击与防御方法，其特征在于，步骤2）中，所述的输出分类层依次包括：表征向量输出层、全连接层和sigmo id层。 5.根据权利要求1所述的面向API序列恶意软件检测模型的黑盒攻击与防御方法，其特征在于，步骤3）中，所述的框架采用seq2seq框架。权　利　要　求　书 1/1 页 2 CN 115168859 B 2面向API序列恶意软件检测模型的黑盒攻击与防御方法技术领域 [0001]本发明涉及机器学习与信息安全技术领域，具体涉及一种面向API序列恶意软件检测模型的黑盒攻击与防御方法。背景技术 [0002]恶意软件指任何用于损害计算机、服务器或计算机网络的软件。恶意软件包括病毒、蠕虫、木马、勒索软件等多种形式。恶意软件是威胁个人、企业、国家信息安全的一个严重问题。与传统的网络威胁相比，恶意软件具有变种多、更新快、隐蔽性高等特点。因此，如何有效地检测恶意软件，是信息安全领域的一个重要的研究主题。 [0003]恶意软件的静态检测已经十分成熟，静态检测的优势在于不需要实际运行软件，因此检测的代价较小。但已经出现了很多方法对静态检测进行绕过，例如软件打包、代码混淆等技术。而API调用是软件动态运行过程中最重要的行为，因此分析API调用序列是实现恶意软件动态检测的重要手段。 [0004]在黑盒攻击方面，已经有人提出了基于GAN 的恶意软件攻击算法。 GAN即生成式对抗网络，是一种利用博弈的思想进行对抗从而提升模型性能的方法。 GA N同时训练一个生成器和一个判别器，其中生成器通过学习将噪声的分布映射为逼近于真实样本的对抗样本的分布，而判别器需要从混有真实样本和对抗样本的数据中将对抗样本鉴别出来。整个生成对抗网络的训练过程就是生成器不断模仿真实样本学习如何生成对抗样本，同时判别器不断从样本中找出对抗样本，直到生成器找到了能够迷惑判别器的方法。基于 GAN的恶意软件攻击算法基于替代检测器拟合黑盒分类器以逼近其决策边界的思路，能够绕过基于机器学习的黑盒检测模型，生成对抗样本。 [0005]然而，上述方法存在许多不足： (1) 假设的黑盒模型只检测API是否被调用（调用标为0，未调用标为1），过于简单和理想化，不满足实际情况； (2) 未能考虑到对API调用特征向量修改后，软件是否还存在恶意功能。发明内容 [0006]本发明提出了一种面向API序列恶意软件检测模型的黑盒攻击与防御方法，通过生成式对抗方法，对恶意API序列进行加噪，使黑盒模型无法对其正确分类，再用生成的对抗样本训练黑盒模型，提高黑盒模型的对该攻击的防御能力。 [0007]一种面向API序列恶意软件检测模型的黑盒攻击与防御方法，具体方法如下： [0008](1) 面向黑盒的代理模型构建：由于被攻击模型是黑盒的，无法得知其具体模型结构和参数，因此通过构建泛化能力强的模型来模拟被攻击黑盒模型； [0009](2) 基于扰动的生成模型构建：通过训练生成模型，在恶意软件的AP I序列中添加噪声API来对其进行扰动； [0010](3) 对抗训练：通过对抗训练，使得代理模型能够更好地模拟被攻击模型，使得生成模型生成的恶意软件API序列能够更不容易被代理模拟检测出来；说　明　书 1/5 页 3 CN 115168859 B 3

专利 面向API序列恶意软件检测模型的黑盒攻击与防御方法

专利面向API序列恶意软件检测模型的黑盒攻击与防御方法