全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210966654.4 (22)申请日 2022.08.12 (71)申请人 中国人民解 放军火箭军工程大 学 地址 710025 陕西省西安市灞桥区同心路2 号 (72)发明人 李海龙 刘敏 罗眉 王利涛  杨州  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 万慧华 (51)Int.Cl. G06F 21/56(2013.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于双通道双向LSTM的恶意代码家族分类 方法及系统 (57)摘要 本发明涉及一种基于双通道双向LSTM的恶 意代码家族分类方法及系统, 具体涉及恶意代码 家族分类技术领域。 所述方法包括: 获取待分类 恶意代码二进制文件; 分别采用API调用序列提 取算法和后 向切片算法对所述待分类恶意代码 二进制文件进行处理得到所述待分类恶意代码 二进制文件的API调用序列文本和API关联基本 块序列文本; 将所述待分类恶意代码二进制文件 的API调用序列文本和API关联基本块序列文本 输入训练好的基于双通道双向LSTM的恶意代码 分类模型得到所述待分类恶意代码二进制文件 的分类类别。 本发明能够提高恶意代码家族分类 结果的准确度。 权利要求书4页 说明书12页 附图6页 CN 115168858 A 2022.10.11 CN 115168858 A 1.一种基于双通道双向LSTM的恶意代码家族分类方法, 其特 征在于, 包括: 获取待分类恶意代码二进制文件; 分别采用API调用序列提取算法和后向切片算法对所述待分类恶意代码二进制文件进 行处理得到所述待分类恶意代码二进制文件的API调用序列文本和API关联基本块序列文 本; 将所述待分类恶意代码二进制文件的API调用 序列文本和API关联基本块序列文本输 入训练好的基于双通道双向LSTM的恶意代码分类模型得到所述待分类恶意代码二进制文 件的分类 类别。 2.根据权利要求1所述的一种基于双通道双向LSTM的恶意代码家族分类方法, 其特征 在于, 所述训练好的基于双通道双向LSTM的恶意代码分类模型的确定过程包括: 获取恶意代码二进制文件样本集; 所述恶意代码二进制文件样本集包括多个已知分类 类别的恶意代码二进制文件; 对于任意一个恶意代码二进制文件, 分别采用API调用序列提取算法和后向切片算法 对所述恶意代码二进制文件进行处理, 得到所述恶意代码二进制文件的API调用序列文本 和API关联基本块序列文本; 分别以所有恶意代码二进制文件的API调用序列文本和所有恶意代码二进制文件的 API关联基本块序列文本作为语料库基于word2vec算法进行词向量训练得到API函数向量 字典和操作码向量字典; 采用所述API函数向量字典对所述API调用序列文本进行映射, 得到所述API调用序列 文本对应的词向量; 采用所述操作码向量字典对所述API关联基本块序列文本进行映射, 得到所述API关联 基本块序列文本对应的词向量; 以所述恶意代码二进制文件样本集中各恶意代码二进制文件的API调用序列文本对应 的词向量和API关联基本块序列文本对应的词向量为输入, 以各恶意代码二进制文件对应 的分类类别为输出, 对基于双通道双向LSTM的恶意代码分类模型进行训练, 得到训练好的 基于双通道双向LSTM的恶意代码分类模型。 3.根据权利要求1所述的一种基于双通道双向LSTM的恶意代码家族分类方法, 其特征 在于, 采用API调用序列提取算法对 所述待分类恶意代码二进制文件进 行处理, 得到所述待 分类恶意代码二进制文件的API调用序列文本, 具体包括: 获取所述待分类恶意代码二进制文件的控制流图和函数调用图; 基于所述控制流图, 得到待分类恶意代码二进制文件中的自定义函数之间的调用关 系、 所述控制流图的基本块的跳转地址、 所述控制流图的基本块的函数和所述控制流图的 基本块中API 函数调用的地址; 基于所述 函数调用图, 得到全路径下的API调用序列; 基于所述待分类恶意代码二进制文件中自定义函数之间的调用关系、 所述基本块的跳 转地址、 所述基本块的函数、 所述基本块中API函数调用的地址以及所述全路径下的API调 用序列, 得到API调用序列文本 。 4.根据权利要求1所述的一种基于双通道双向LSTM的恶意代码家族分类方法, 其特征 在于, 采用后向切片算法对所述待分类恶意代码二进制文件进行处理, 得到所述待分类恶权 利 要 求 书 1/4 页 2 CN 115168858 A 2意代码二进制文件的API关联基本块序列文本, 具体包括: 获取所述待分类恶意代码二进制文件的控制流图和函数调用图; 基于所述控制流图, 得到待分类恶意代码二进制文件中的自定义函数之间的调用关 系、 所述控制流图的基本块的跳转地址、 所述控制流图的基本块的函数和所述控制流图的 基本块中API 函数调用的地址; 基于所述 函数调用图, 得到全路径下的API调用序列; 遍历所述全路径下的API调用序列, 得到所述全路径下的API调用序列中的所有API函 数, 并根据所述基本块的跳转地址、 所述基本块的函数和所述基本块中API函数调用的地 址, 得到各 所述API函数所在的节点; 对于任意一个API函数, 基于所述控制流图, 得到所述API函数所在节点的前驱节点、 第 一前驱节点以及第二前驱节点; 所述第一前驱节点为所述前驱节点的前驱节点, 所述第二 前驱节点 为所述第一前驱节点的前驱节点; 读取所述第一前驱节点以及第二前驱节点所在的内存地址中的汇编指令, 得到所述 API函数对应的汇编指令序列; 将各所述API函数对应的汇编指令序列根据所述全路径下的API调用序列进行组合, 得 到API关联基本块序列文本 。 5.根据权利要求2所述的一种基于双通道双向LSTM的恶意代码家族分类方法, 其特征 在于, 所述分别以所有恶意代码二进制文件的API调用序列文本和所有恶意代码二进制文 件的API关联基本块序列文本作为语料库基于word2vec算法进行词向量训练得到API函数 向量字典和操作码向量字典, 具体包括: 分别对所有恶意代码二进制文件的所述API调用序列文本和所有恶意代码二进制文件 的所述API关联基本块序列文本进行分词, 得到分词后的API调用序列文本和分词后的API 关联基本块序列文本; 分别将所述分词后的API调用 序列文本和所述分词后的API关联基本块序列文本作为 语料库基于w ord2vec算法进行词向量训练得到API 函数向量字典和操作码向量字典。 6.根据权利要求1所述的一种基于双通道双向LSTM的恶意代码家族分类方法, 其特征 在于, 所述基于双通道双向LSTM的恶意代码分类模型包括: 依次连接的双通道双向LSTM层、 Merge层、 Droupout层和Softmax层。 7.一种基于双通道双向LSTM的恶意代码家族分类系统, 其特 征在于, 包括: 获取模块, 用于获取待分类恶意代码二进制文件; 序列文本确定模块, 用于分别采用API调用序列提取算法和后向切片算法对所述待分 类恶意代码二进制文件进 行处理得到所述待分类恶意代码二进制文件的API调用序列文本 和API关联基本块序列文本; 分类模块, 用于将所述待分类恶意代码二进制文件的API调用序列文本和API关联基本 块序列文本输入训练好的基于双通道双向LSTM的恶意代码分类模型得到所述待分类恶意 代码二进制文件的分类 类别。 8.根据权利要求7所述的一种基于双通道双向LSTM的恶意代码家族分类系统, 其特征 在于, 还包括: 样本集获取模块, 用于获取恶意代码二进制文件样本集; 所述恶意代码二进制文件样权 利 要 求 书 2/4 页 3 CN 115168858 A 3

PDF文档 专利 基于双通道双向LSTM的恶意代码家族分类方法及系统

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于双通道双向LSTM的恶意代码家族分类方法及系统 第 1 页 专利 基于双通道双向LSTM的恶意代码家族分类方法及系统 第 2 页 专利 基于双通道双向LSTM的恶意代码家族分类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。