专利 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111669208.9 (22)申请日 2021.12.31 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人王一鹏　乐思琦　赖英旭　贺慧杰　庄俊玺　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 代理人沈波 (51)Int.Cl. G06K 9/62(2022.01) H04L 9/40(2022.01) (54)发明名称一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 (57)摘要本发明公开了一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统。包括模型构建阶段、分类阶段及更新阶段。其中模型构建阶段包含用于构建流特征提取模型的模型构建阶段1以及用于构建流分离模型的构建的模型构建阶段2。基于流分离模型，划分已知流量类与未知流量类边界。对于判定为已知类的流输出其对应的预测标签，并存储为已知类流量样本；对于判定为未知类的流，对其进行标记并存储为未知类流量样本。基于新类别样本数据与已知类样本数据组成新流量样本数据集，重复模型构建阶段操作进行模型更新。通过模型构建阶段、分类阶段和更新阶段，有效应对未知加密流量问题，在保证了分类精确度的同时使系统具有良好的可扩展性。权利要求书4页说明书14页附图3页 CN 114358177 A 2022.04.15 CN 114358177 A 1.一种基于多维度特征紧凑决策边界的未知网络流量分类方法，其特征在于，包括模型构建阶段、分类阶段及更新阶段；其中模型构建阶段包含用于构建流特征提取模型的模型构建阶段1以及用于构建流分离模型的构建的模型构建阶段2，具体过程如下：所述模型构建阶段1包括报文负载特征提取过程以及报文长度序列特征提取过程两个子过程： 1)报文负载特征提取过程包括如下步骤： 1‑1)以已标记的原始IP数据报文作为输入，按照五元组标识将其组装为TCP/UDP单向流集合； 1‑2)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入，对TCP/UDP单向流集合进行报文负载数据预处理操作，提取每条流的前几个非空负载数据包中的固定数量的字节负载数据，通过截取或填充的方式使报文负载长度一致，形成定长报文负载集合； 1‑3)以步骤1 ‑2)形成的定长报文负载集合作为输入，首先采用独热编码将定长报文负载序列转化为定长的独热表征报文负载向量；然后，采用有监督学习的方式，提取报文负载特征； 2)报文长度序列特征提取过程包括如下步骤： 2‑1)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入，进行报文长度序列数据预处理操作；提取每条流的前几个非空负载数据包的有效负载长度；通过截取或填充的方式使报文长度序列长度一致，形成定长报文长度序列集合； 2‑2)以步骤2 ‑1)形成的定长报文长度序列集合作为输入，首先采用独热编码将定长报文长度序列转化为定长的独热表征长度序列向量；然后，采用有监督学习的方式，提取报文长度序列特征； 3)将步骤1 ‑3)得到的报文负载特征与步骤2 ‑2)得到的报文长度序列特征进行特征融合和增强，从而构建具有较高泛化能力与鲁棒性的多维度的流特征提取模型；所述模型构建阶段2包括如下步骤： 4)以流特征提取模型输出的已标记的流特征及对应标签作为输入，按照划分比例系数设置为α，划分训练数据子集； 5)根据步骤4)得到的训练数据子集，采用有监督学习的方式，基于融合多颗决策树构建能够有效划分已知、未知流量的流分离模型；所述分类阶段包括如下步骤： 6)以未标记的混杂流原始IP数据包作为输入，进行与模型构建阶段1中步骤1 ‑1)相同的方法，将其组装为TCP/UD P单向流集合； 7)以步骤6)得到的TCP/UDP单向流集合为输入，与模型构建阶段1中步骤1 ‑2)及步骤2 ‑ 1)相同，对流进行数据预处理，得到满足流特征提取模型的报文负载集以及报文长度序列集； 8)根据模型构建阶段1中步骤3)得到的流特征提取模型，对待分类的流进行特征提取，得到混杂流的报文负载特征与报文长度序列特征； 9)以步骤8)中得到的混杂流的报文负载特征与报文长度序列特征为输入，根据步骤5) 得到的流分离模型，划分已知流量类与未知流量类边界；对于判定为已知类的流输出其对应的预测标签，并存储为已知类流量样本；对于判定为未知类的流，对其进行标记并存储为权　利　要　求　书 1/4 页 2 CN 114358177 A 2未知类流量样本；所述模型更新阶段包括如下步骤： 10)以步骤9)得到的未知类流量样本为输入，进行基于BIC的K ‑means聚类，将输出的聚类结果与未知类流量样本的原始数据拼接，并存储为新类别流量样本数据； 11)将步骤10)得到的新类别样本数据与步骤9)得到已知类样本数据组成新流量样本数据集，更新流特征提取模型与流分离模型中流类别数，并采用同模型构建阶段1与模型构建阶段2中相同操作进行模型更新操作，以有效应对新未知流量的分类问题。 2.如权利要求1所述的一种基于多维度特征紧凑决策边界的未知网络流量分类方法，其特征在于，步骤1)负载特征提取的具体操作方法是： 1‑1)对原始IP数据报文进行预处理操作，将五元组视为区分TCP/UDP流的标识，将符合同一标识的数据包组成一条TCP/UDP单向流；其中，五元组是指数据包的源IP地址 (ip.src)、目的IP地址、源端口、目的端口、第四层通信协议； 1‑2)对报文负载数据进行预处理的具体操作是： 1‑2‑1)对步骤1 ‑1)中得到的TCP/UDP单向流集合中每一条流进行报文负载提取操作，提取每一条流的前几个非空负载数据包的前几个字节负载数据，从而得到负载数据集合； 1‑2‑2)对步骤1 ‑2‑1)得到的报文负载进行长度一致化处理；当报文负载长度小于报文负载长度预设值时，对其进行补“0”操作，使之与预设长度一致；反之，报文负载长度大于报文负载长度预设值时，对其进行长度截取操作，使之与预设长度一致；从而得到定长报文负载集合； 1‑3)提取报文负载特征的具体操作： 1‑3‑1)以步骤1 ‑2‑2)形成的定长报文负载集合作为输入，采用独热编码按字节将定长报文负载序列转化为定长的独热表征报文负载向量；由流量负载数据特性可知，原始流量负载数据中每个字节的十进制取值范围为[0,255]，设流负载序列中每个报文负载可能的取值构成一个集合，且该集合的基数为256，将所有报文负载转换为长度为256的独热向量，其特征在于，仅报文负载的十进制数值对应的维度取值为1，其余维度均取0； 1‑3‑2)采用有监督学习的方式，以步骤1 ‑3‑1)中定长独热表征报文负载向量为输入，使用单层2D卷积神经网络结构进行初始特征变换操作，并对初始特征的最后一个维度进行维度压缩操作，得到低维度的报文负载初始特征向量； 1‑3‑3)以步骤1 ‑3‑2)得到的低维度初始特征向量为输入，分别输入三个卷积核数相同，卷积核大小不同的三个并行1D卷积层进行二次特征变换操作，对输出的三个特征向量执行加法操作，得到融合后的报文负载特征向量； 1‑3‑4)将步骤1 ‑3‑2)得到的低维度报文负载初始特征向量与步骤1 ‑3‑3)得到的融合特征向量相加作为输入，使用随机失活层对神经元进行随机性失活操作； 1‑3‑5)以1‑3‑4)得到的特征向量为输入，使用具有RELU激活功能的两层全连接层，进行特征压缩操作，得到报文负载特征。 3.如权利要求1所述的一种基于多维度特征紧凑决策边界的未知网络流量分类方法，其特征在于，步骤2)提取报文长度序列特征的方法是： 2‑1)对报文长度序列进行预处理的具体操作： 2‑1‑1)以步骤1 ‑1)得到的TCP/UDP单向流集合作为输入，提取每条流的前几个非空负权　利　要　求　书 2/4 页 3 CN 114358177 A 3

专利 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统

专利一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统