(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111669208.9
(22)申请日 2021.12.31
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 王一鹏 乐思琦 赖英旭 贺慧杰
庄俊玺
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
代理人 沈波
(51)Int.Cl.
G06K 9/62(2022.01)
H04L 9/40(2022.01)
(54)发明名称
一种基于多维度特征紧凑决策边界的未知
网络流量分类方法及系统
(57)摘要
本发明公开了一种基于多维度特征紧凑决
策边界的未知网络流量分类方法及系统。 包括模
型构建阶段、 分类阶段及更新阶段。 其中模型构
建阶段包含用于构建流特征提取模型的模型构
建阶段1以及用于构建流分离模 型的构建的模型
构建阶段2。 基于流分离模型, 划分已知流量类与
未知流量类边界。 对于判定为已知类的流输出其
对应的预测标签, 并存储为已知类流量样本; 对
于判定为未知类的流, 对其进行标记并存储为未
知类流量样 本。 基于新类别样 本数据与已知类样
本数据组成新流量样本数据集, 重复模型构建阶
段操作进行模型更新。 通过模型构建阶段、 分类
阶段和更新阶段, 有效应对未知加密流量问题,
在保证了分类精确度的同时使系统具有良好的
可扩展性。
权利要求书4页 说明书14页 附图3页
CN 114358177 A
2022.04.15
CN 114358177 A
1.一种基于多维度特征紧凑决策边界的未知网络流量分类方法, 其特征在于, 包括模
型构建阶段、 分类阶段及更新阶段; 其中模型构建阶段包含用于构建流特征提取模型 的模
型构建阶段1以及用于构建流分离模型的构建的模型构建阶段2, 具体过程如下:
所述模型构建阶段1包括报文负载特征提取过程以及报文长度序列 特征提取过程两个
子过程:
1)报文负载 特征提取过程包括如下步骤:
1‑1)以已标记的原始IP数据报文作为输入, 按照五元组标识将其组装为TCP/UDP单向
流集合;
1‑2)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入, 对TCP/UDP单向流集合进行报文
负载数据预处理操作, 提取每条流的前几个非空负载数据包中的固定数量的字节负载数
据, 通过截取或填充的方式使报文负载长度一 致, 形成定 长报文负载集 合;
1‑3)以步骤1 ‑2)形成的定长报文负载集合作 为输入, 首先采用独热编码将定长报文负
载序列转化为定长的独热表征报文负载向量; 然后, 采用有监督学习的方式, 提取报文负载
特征;
2)报文长度 序列特征提取过程包括如下步骤:
2‑1)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入, 进行报文长度序列数据预处理
操作; 提取每条流的前几个非空负载数据包的有效负载长度; 通过截取或填充的方式使报
文长度序列长度一 致, 形成定 长报文长度 序列集合;
2‑2)以步骤2 ‑1)形成的定长报文长度序列集合作 为输入, 首先采用独热编码将定长报
文长度序列转化为定长的独热表征长度序列向量; 然后, 采用有监督学习的方式, 提取报文
长度序列特征;
3)将步骤1 ‑3)得到的报文负载特征与步骤2 ‑2)得到的报文长度序列特征进行特征融
合和增强, 从而构建具有较高泛化能力与鲁棒 性的多维度的流特 征提取模型;
所述模型构建阶段2包括如下步骤:
4)以流特征提取模型输出的已标记的流特征及对应标签作为输入, 按照划分比例系数
设置为α, 划分训练数据子集;
5)根据步骤4)得到的训练数据子集, 采用有监督学习的方式, 基于融合多颗决策树构
建能够有效划分已知、 未知流 量的流分离模型;
所述分类阶段包括如下步骤:
6)以未标记的混杂流原始IP数据包作为输入, 进行与模型构建阶段1中步骤1 ‑1)相同
的方法, 将其组装为TCP/UD P单向流集合;
7)以步骤6)得到的TCP/UDP单向流集合为输入, 与模型构建阶段1中步骤1 ‑2)及步骤2 ‑
1)相同, 对流进行数据预处理, 得到满足流特征提取模型 的报文负载集以及报文长度序列
集;
8)根据模型构建阶段1中步骤3)得到的流特征提取模型, 对待分类的流进行特征提取,
得到混杂流的报文负载 特征与报文长度 序列特征;
9)以步骤8)中得到的混杂流的报文负载特征与报文长度序列特征为输入, 根据步骤5)
得到的流分离模型, 划分已知流量类与未知流量类边界; 对于判定为已知类的流输出其对
应的预测标签, 并存储为已知类流量样本; 对于判定为未知类的流, 对其进行标记并存储为权 利 要 求 书 1/4 页
2
CN 114358177 A
2未知类流 量样本;
所述模型 更新阶段包括如下步骤:
10)以步骤9)得到的未知类流量样本为输入, 进行基于BIC的K ‑means聚类, 将输出的聚
类结果与未知类流 量样本的原 始数据拼接, 并存 储为新类别流 量样本数据;
11)将步骤10)得到的新类别样本数据与步骤9)得到已知类样本数据组成新流量样本
数据集, 更新流特征提取模 型与流分离模型中流类别数, 并采用同模 型构建阶段1与模型构
建阶段2中相同操作进行模型 更新操作, 以有效应对新未知流 量的分类问题。
2.如权利要求1所述的一种基于多维度特征紧凑决策边界的未知网络流量分类方法,
其特征在于, 步骤1)负载 特征提取的具体操作方法是:
1‑1)对原始IP数据报文进行预处理操作, 将五元组视为区分TCP/UDP流的标识, 将 符合
同一标识的数据包组成一条TCP/UDP单向流; 其中, 五元组是指数据包的源IP地址
(ip.src)、 目的IP地址、 源端口、 目的端口、 第四层通信协议;
1‑2)对报文负载 数据进行 预处理的具体操作是:
1‑2‑1)对步骤1 ‑1)中得到的TCP/UDP单向流集合中每一条流进行报文负载提取操作,
提取每一条流的前几个非空负载 数据包的前几个字节负载 数据, 从而得到负载 数据集合;
1‑2‑2)对步骤1 ‑2‑1)得到的报文负载进行长度 一致化处理; 当报文负载长度小于报文
负载长度预设值时, 对其进 行补“0”操作, 使之与预设长度一致; 反之, 报文负载长度大于报
文负载长度预设值时, 对其进 行长度截 取操作, 使之与预设长度一致; 从而得到定长报文负
载集合;
1‑3)提取报文负载 特征的具体操作:
1‑3‑1)以步骤1 ‑2‑2)形成的定长报文负载集合作为输入, 采用独热编码按字节将定长
报文负载序列转化为定长的独热表征报文负载向量; 由流量负载数据特性可知, 原始流量
负载数据中每个字节的十进制取值范围为[0,255], 设流负载序列中每个报文负载可能的
取值构成一个集合, 且 该集合的基数为256, 将所有报文负载转换为长度为256的独热向量,
其特征在于, 仅报文负载的十进制数值对应的维度取值 为1, 其余维度均取0;
1‑3‑2)采用有监督学习的方式, 以步骤1 ‑3‑1)中定长独热表征报文负载向量为输入,
使用单层2D卷积神经网络结构进行初始特征变换操作, 并对初始特征的最后一个维度进 行
维度压缩操作, 得到低维度的报文负载初始特 征向量;
1‑3‑3)以步骤1 ‑3‑2)得到的低维度初始特征向量为输入, 分别输入三个卷积核数相
同, 卷积核大小不同的三个并行1D卷积层进行二次特征变换操作, 对输出的三个特征向量
执行加法操作, 得到融合后的报文负载 特征向量;
1‑3‑4)将步骤1 ‑3‑2)得到的低维度报文负载初始特征向量与步骤1 ‑3‑3)得到的融合
特征向量相加作为输入, 使用随机失活层对神经 元进行随机性失活操作;
1‑3‑5)以1‑3‑4)得到的特征向量为输入, 使用具有RELU激活功能的两层全连接层, 进
行特征压缩操作, 得到报文负载 特征。
3.如权利要求1所述的一种基于多维度特征紧凑决策边界的未知网络流量分类方法,
其特征在于, 步骤2)提取报文长度 序列特征的方法是:
2‑1)对报文长度 序列进行 预处理的具体操作:
2‑1‑1)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入, 提取每条流的前几个非空负权 利 要 求 书 2/4 页
3
CN 114358177 A
3
专利 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 22:42:38上传分享