(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111669208.9 (22)申请日 2021.12.31 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 王一鹏 乐思琦 赖英旭 贺慧杰  庄俊玺  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 代理人 沈波 (51)Int.Cl. G06K 9/62(2022.01) H04L 9/40(2022.01) (54)发明名称 一种基于多维度特征紧凑决策边界的未知 网络流量分类方法及系统 (57)摘要 本发明公开了一种基于多维度特征紧凑决 策边界的未知网络流量分类方法及系统。 包括模 型构建阶段、 分类阶段及更新阶段。 其中模型构 建阶段包含用于构建流特征提取模型的模型构 建阶段1以及用于构建流分离模 型的构建的模型 构建阶段2。 基于流分离模型, 划分已知流量类与 未知流量类边界。 对于判定为已知类的流输出其 对应的预测标签, 并存储为已知类流量样本; 对 于判定为未知类的流, 对其进行标记并存储为未 知类流量样 本。 基于新类别样 本数据与已知类样 本数据组成新流量样本数据集, 重复模型构建阶 段操作进行模型更新。 通过模型构建阶段、 分类 阶段和更新阶段, 有效应对未知加密流量问题, 在保证了分类精确度的同时使系统具有良好的 可扩展性。 权利要求书4页 说明书14页 附图3页 CN 114358177 A 2022.04.15 CN 114358177 A 1.一种基于多维度特征紧凑决策边界的未知网络流量分类方法, 其特征在于, 包括模 型构建阶段、 分类阶段及更新阶段; 其中模型构建阶段包含用于构建流特征提取模型 的模 型构建阶段1以及用于构建流分离模型的构建的模型构建阶段2, 具体过程如下: 所述模型构建阶段1包括报文负载特征提取过程以及报文长度序列 特征提取过程两个 子过程: 1)报文负载 特征提取过程包括如下步骤: 1‑1)以已标记的原始IP数据报文作为输入, 按照五元组标识将其组装为TCP/UDP单向 流集合; 1‑2)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入, 对TCP/UDP单向流集合进行报文 负载数据预处理操作, 提取每条流的前几个非空负载数据包中的固定数量的字节负载数 据, 通过截取或填充的方式使报文负载长度一 致, 形成定 长报文负载集 合; 1‑3)以步骤1 ‑2)形成的定长报文负载集合作 为输入, 首先采用独热编码将定长报文负 载序列转化为定长的独热表征报文负载向量; 然后, 采用有监督学习的方式, 提取报文负载 特征; 2)报文长度 序列特征提取过程包括如下步骤: 2‑1)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入, 进行报文长度序列数据预处理 操作; 提取每条流的前几个非空负载数据包的有效负载长度; 通过截取或填充的方式使报 文长度序列长度一 致, 形成定 长报文长度 序列集合; 2‑2)以步骤2 ‑1)形成的定长报文长度序列集合作 为输入, 首先采用独热编码将定长报 文长度序列转化为定长的独热表征长度序列向量; 然后, 采用有监督学习的方式, 提取报文 长度序列特征; 3)将步骤1 ‑3)得到的报文负载特征与步骤2 ‑2)得到的报文长度序列特征进行特征融 合和增强, 从而构建具有较高泛化能力与鲁棒 性的多维度的流特 征提取模型; 所述模型构建阶段2包括如下步骤: 4)以流特征提取模型输出的已标记的流特征及对应标签作为输入, 按照划分比例系数 设置为α, 划分训练数据子集; 5)根据步骤4)得到的训练数据子集, 采用有监督学习的方式, 基于融合多颗决策树构 建能够有效划分已知、 未知流 量的流分离模型; 所述分类阶段包括如下步骤: 6)以未标记的混杂流原始IP数据包作为输入, 进行与模型构建阶段1中步骤1 ‑1)相同 的方法, 将其组装为TCP/UD P单向流集合; 7)以步骤6)得到的TCP/UDP单向流集合为输入, 与模型构建阶段1中步骤1 ‑2)及步骤2 ‑ 1)相同, 对流进行数据预处理, 得到满足流特征提取模型 的报文负载集以及报文长度序列 集; 8)根据模型构建阶段1中步骤3)得到的流特征提取模型, 对待分类的流进行特征提取, 得到混杂流的报文负载 特征与报文长度 序列特征; 9)以步骤8)中得到的混杂流的报文负载特征与报文长度序列特征为输入, 根据步骤5) 得到的流分离模型, 划分已知流量类与未知流量类边界; 对于判定为已知类的流输出其对 应的预测标签, 并存储为已知类流量样本; 对于判定为未知类的流, 对其进行标记并存储为权 利 要 求 书 1/4 页 2 CN 114358177 A 2未知类流 量样本; 所述模型 更新阶段包括如下步骤: 10)以步骤9)得到的未知类流量样本为输入, 进行基于BIC的K ‑means聚类, 将输出的聚 类结果与未知类流 量样本的原 始数据拼接, 并存 储为新类别流 量样本数据; 11)将步骤10)得到的新类别样本数据与步骤9)得到已知类样本数据组成新流量样本 数据集, 更新流特征提取模 型与流分离模型中流类别数, 并采用同模 型构建阶段1与模型构 建阶段2中相同操作进行模型 更新操作, 以有效应对新未知流 量的分类问题。 2.如权利要求1所述的一种基于多维度特征紧凑决策边界的未知网络流量分类方法, 其特征在于, 步骤1)负载 特征提取的具体操作方法是: 1‑1)对原始IP数据报文进行预处理操作, 将五元组视为区分TCP/UDP流的标识, 将 符合 同一标识的数据包组成一条TCP/UDP单向流; 其中, 五元组是指数据包的源IP地址 (ip.src)、 目的IP地址、 源端口、 目的端口、 第四层通信协议; 1‑2)对报文负载 数据进行 预处理的具体操作是: 1‑2‑1)对步骤1 ‑1)中得到的TCP/UDP单向流集合中每一条流进行报文负载提取操作, 提取每一条流的前几个非空负载 数据包的前几个字节负载 数据, 从而得到负载 数据集合; 1‑2‑2)对步骤1 ‑2‑1)得到的报文负载进行长度 一致化处理; 当报文负载长度小于报文 负载长度预设值时, 对其进 行补“0”操作, 使之与预设长度一致; 反之, 报文负载长度大于报 文负载长度预设值时, 对其进 行长度截 取操作, 使之与预设长度一致; 从而得到定长报文负 载集合; 1‑3)提取报文负载 特征的具体操作: 1‑3‑1)以步骤1 ‑2‑2)形成的定长报文负载集合作为输入, 采用独热编码按字节将定长 报文负载序列转化为定长的独热表征报文负载向量; 由流量负载数据特性可知, 原始流量 负载数据中每个字节的十进制取值范围为[0,255], 设流负载序列中每个报文负载可能的 取值构成一个集合, 且 该集合的基数为256, 将所有报文负载转换为长度为256的独热向量, 其特征在于, 仅报文负载的十进制数值对应的维度取值 为1, 其余维度均取0; 1‑3‑2)采用有监督学习的方式, 以步骤1 ‑3‑1)中定长独热表征报文负载向量为输入, 使用单层2D卷积神经网络结构进行初始特征变换操作, 并对初始特征的最后一个维度进 行 维度压缩操作, 得到低维度的报文负载初始特 征向量; 1‑3‑3)以步骤1 ‑3‑2)得到的低维度初始特征向量为输入, 分别输入三个卷积核数相 同, 卷积核大小不同的三个并行1D卷积层进行二次特征变换操作, 对输出的三个特征向量 执行加法操作, 得到融合后的报文负载 特征向量; 1‑3‑4)将步骤1 ‑3‑2)得到的低维度报文负载初始特征向量与步骤1 ‑3‑3)得到的融合 特征向量相加作为输入, 使用随机失活层对神经 元进行随机性失活操作; 1‑3‑5)以1‑3‑4)得到的特征向量为输入, 使用具有RELU激活功能的两层全连接层, 进 行特征压缩操作, 得到报文负载 特征。 3.如权利要求1所述的一种基于多维度特征紧凑决策边界的未知网络流量分类方法, 其特征在于, 步骤2)提取报文长度 序列特征的方法是: 2‑1)对报文长度 序列进行 预处理的具体操作: 2‑1‑1)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入, 提取每条流的前几个非空负权 利 要 求 书 2/4 页 3 CN 114358177 A 3

.PDF文档 专利 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统

安全报告 > 其他 > 文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 第 1 页 专利 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 第 2 页 专利 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 22:42:38上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。