全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210130212.6 (22)申请日 2022.02.11 (71)申请人 哈尔滨工业大 学 (深圳) 地址 518000 广东省深圳市南 山区桃源街 道深圳大 学城哈尔滨工业大 学校区 (72)发明人 丁宇新 邵苗苗 王广斌 马宇斌  张霄  (74)专利代理 机构 深圳市添源创鑫知识产权代 理有限公司 4 4855 专利代理师 姜书新 (51)Int.Cl. G06F 21/53(2013.01) G06F 21/56(2013.01) G06F 16/36(2019.01) (54)发明名称 一种恶意代码动态行为的知识图谱构建方 法、 系统及存 储介质 (57)摘要 本发明提供了一种恶意代码动态行为的知 识图谱构建方法、 系统及存储介质, 包括如下步 骤: 步骤1, 恶意代码收集与样本标注步骤: 收集 恶意代码样本, 对恶意代码样本进行数据标注; 步骤2, 动态分析生成行为报告 步骤: 利用沙箱动 态分析恶意代码, 生成动态报告; 步骤3, 恶意代 码行为知识图构建步骤: 构建恶意代码行为知识 图, 包括边、 节点的设计, 恶 意代码行为知识图包 括个体行为知识图和家族 行为知识图; 步骤4, 恶 意代码行为知 识图嵌入表示步骤: 利用Tran sE知 识图谱嵌入表 示算法, 学习恶意代码行为知 识图 的嵌入表示。 本发明的有益效果是: 本发明构造 出了恶意代码个体和家族的嵌入向量表示, 对多 个家族进行了分类任务, 并使用可视化和定量实 验验证了本发 明中知识图结构的合理性、 个体和 家族表示的有效性。 权利要求书2页 说明书8页 附图3页 CN 114707137 A 2022.07.05 CN 114707137 A 1.一种恶意代码动态行为的知识图谱构建方法, 其特 征在于, 包括如下步骤: 步骤1, 恶意代码收集与样本标注步骤: 收集恶意代码样本, 对恶意代码样本进行数据 标注; 步骤2, 动态分析生成行为报告步骤: 利用沙箱动态分析恶意代码, 生成动态报告; 步骤3, 恶意代码行为知识图构建步骤: 构建恶意代码行为知识图, 包括边、 节点的设 计, 恶意代码行为知识图包括个 体行为知识图和家族行为知识图; 步骤4, 恶意代码行为知识图嵌入表示步骤: 利用TransE知识图谱嵌入表示算法, 学习 恶意代码行为知识图的嵌入表示。 2.根据权利要求1所述的知识图谱构建方法, 其特征在于, 在所述步骤1中, 从指定网站 收集恶意代码 样本, 利用恶意代码类别标注工具 软件对恶意代码 样本进行 数据标注。 3.根据权利要求1所述的知识图谱构建方法, 其特征在于, 在所述步骤2中, 沙箱为 cuckoo沙箱, cuckoo沙箱安装在操作系统上, cuckoo沙箱安装的操作系统被称为Host; cuckoo沙箱后端会连接虚拟机中的操作系统, 作为恶意代码运行的模拟环境, 虚拟机中的 操作系统被称为Client; 在Client中, 会运行一个Python程序监控并记录恶意代码对系统 的行为, 并且Client随时保持着与Host的通信联系; 在Client中的恶意代码运行结束后, Client会将记录的行为日志提交给Host进行分析, Host最终生成一个json格式的动态报 告, 供恶意代码分析 人员查看和使用。 4.根据权利要求1所述的知识图谱构建方法, 其特征在于, 在所述步骤3中, 知识图中的 边, 即恶意代码对系统的动作, 在设计边的时候, 是基于沙箱的分析报告, 抽取了恶意代码 中指定的动作。 5.根据权利要求4所述的知识图谱构建方法, 其特征在于, 在所述步骤3中, 所述指定的 动作包括对文件的动作、 对文件夹的动作、 对注 册表的动作、 命令行动作、 以及网络动作。 6.根据权利要求1所述的知识图谱构建方法, 其特征在于, 在所述步骤3中, 知识图中的 节点被描述成实体集合E, 实体集合E包括头实体h和 尾实体t, 头实体包括个体作为头实体 Individual ‑Head和家族作为头实体Family ‑Head, 尾实体用统一的系统组件表示, 在 Individual ‑Head中, 使用恶意代码个体的ID来作为三元组中的头实体h, 三元组(h, r, t)被 表示成三元组(个体ID、 动作、 系统组件); 在Family ‑Head中, 使用恶意代码家族ID来作为三 元组中的头实体h, 三元组(h, r, t)被表示成三元组(家族ID、 动作、 系统 组件)。 7.根据权利 要求6所述的知识图谱构 建方法, 其特征在于, 在所述步骤4中, 使用TransE 作为恶意代码行为知识图嵌入模型, 来 获得恶意代码行为知识图中行为三元组的嵌入向量 表示, 通过负采样构造恶意代码行为知识图中未出现的负样本, 优化TransE的评分函数fr (h, t)=‑||h+r‑t||1/2, 获得实体h、 t和关系r的嵌入向量表示, h、 r和t皆为 n维嵌入向量。 8.根据权利要求7 所述的知识图谱构建方法, 其特 征在于, 在所述 步骤4中, 首先对待训练的关系向量r和实体向量e进行初始化, 接着对实体集合中的每个实体向 量e进行归一化, 在恶意代码行为知识图三元组(h, r, t)中采样出一个 minibatch, 初始化T_ batch为空集合, 对minibatch中的每 一个三元组(h, r, t), 通 过随机替换h为h∧′, 替换t为t∧′ 来构造三元组负样本(h∧′, r, t∧′), 将正负样本对{(h, r, t), (h∧′, r, t∧′)}放入集合T_batch 中等待训练, 当一个minibatch中所有的三元组都完成了负样本的构造过程后, 通过公式 (4‑1)来获得mi nibatch的梯度;权 利 要 求 书 1/2 页 2 CN 114707137 A 2公式(4‑1)中的γ为软间隔, 是一个可以调节的超参数, 其中d(h+r, t)为正样本三元组 h+r与向量t之间的距离, d(h ′+r, t′)为负样本三元组h ′+r与向量t ′之间的距离, 优化目标 使得在恶意代码行为知识图中实际出现过的行为三元 组正样本(h, r, t)的距离d(h+r, t)小 于设定值, 而 使得负样本(h′, r, t′)的距离d(h ′+r, t′)大于设定值; 9.一种恶意代码动态行为的知识图谱构建系统, 其特征在于, 包括: 存储器、 处理器以 及存储在所述存储器上的计算机程序, 所述计算机程序配置为由所述处理器调用时实现权 利要求1‑8中任一项所述知识图展示方法的步骤。 10.一种计算机可读存储介质, 其特征在于: 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序配置为由处理器调用时实现权利要求1 ‑8中任一项所述的知识图谱构 建方法的步骤。权 利 要 求 书 2/2 页 3 CN 114707137 A 3

.PDF文档 专利 一种恶意代码动态行为的知识图谱构建方法、系统及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种恶意代码动态行为的知识图谱构建方法、系统及存储介质 第 1 页 专利 一种恶意代码动态行为的知识图谱构建方法、系统及存储介质 第 2 页 专利 一种恶意代码动态行为的知识图谱构建方法、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。