专利 一种基于深度学习的加密网络流量识别及分类方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111509168.1 (22)申请日 2021.12.10 (71)申请人广东工业大学地址 510090 广东省广州市越秀区东风东路729号申请人中通服建设有限公司 (72)发明人凌捷　康健豪　罗玉　黄慧武　区奕宁　区旸　刘艺彬　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 代理人禹小明 (51)Int.Cl. H04L 9/40(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于深度学习的加密网络流量识别及分类方法 (57)摘要本发明公开了一种基于深度学习的加密网络流量识别及分类方法，所述识别方法包括以下步骤： S1：获取加密网络流量数据并进行预处理得到若干单独的会话； S2：对于预处理后的流量数据进行统计特征的选择； S3：对预处理后的流量数据进行有效载荷截取； S4：将统计特征和有效载荷进行特征整合并进行特征标准化； S5：利用整合后的特征对识别模型进行训练，得到训练好的识别模型； S6：利用训练好的识别模型对加密网络流量进行识别和分类。本发明提高了加密网络流量识别及分类的准确度，实现了更高的分类性能，并且能够对细粒度的加密网络流量进行识别和分类同时具有更强的场景适用性。权利要求书2页说明书7页附图2页 CN 114257428 A 2022.03.29 CN 114257428 A 1.一种基于深度学习的加密网络流量识别方法，其特征在于，包括以下步骤： S1：获取加密网络流量数据并进行预处理得到若干单独的会话； S2：对于预处理后的流量数据进行统计特征的选择； S3：对预处理后的流量数据进行有效载荷截取； S4：将统计特征和有效载荷进行特征整合并进行特征标准化； S5：利用整合后的特征对识别模型进行训练，得到训练好的识别模型； S6：利用训练好的识别模型对加密网络流量进行识别。 2.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法，其特征在于，步骤S1所述的获取加密网络流量数据并进行预处理具体步骤为：利用网络抓包工具收集网络通信工具通信的加密网络流量；对格式为pcap的原始流量文件进行清洗；将清洗后的原始流量切分成多个单独的会话。 3.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法，其特征在于，步骤S2所述的对于预处理后的流量数据进行统计特征的选择具体步骤为：利用网络流量特征提取工具提取每个会话的统计特征；删除Flow ID、 Src IP、 Dst IP、 Timestamp 这4个与分类无关的特征，保留其余网络流量统计特征作为识别模型训练的输入之一。 4.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法，其特征在于，步骤S3所述的对预处理后的流量数据进行有效载荷截取具体步骤为：截取每条切分后的流量会话中密文形式的有效载荷前945个字节，若不足945个字节，则使用0进行填充补齐至945，将其作为模型训练的输入之一。 5.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法，其特征在于，步骤S4所述将统计特征和有效载荷进行特征整合并进行特征标准化具体步骤为：将步骤S2选择的统计特征和步骤S3得到的有效载荷字节整合成固定长度的特征向量；使用min‑max标准化方法将每个特征缩放至0 ‑1之间，计算方法为其中x* 为标准化后的特征， x为输入特征， min和max分别对应输入特征的最小值和最大值。 6.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法，其特征在于， S5 所述的利用整合后的特征对识别模型进行训练，得到训练好的识别模型具体过程为：将整合后的特征转换成预设的格式输入Mogrifier LSTM中进行全局时序特征提取；将Mogrifier LSTM输出的特征矩阵输入至SKCNN网络进行空间局部特征提取，得到空间局部特征的特征图；利用全连接分类对得到的特征进行分类，经由softmax输出预测结果，最后，使用 CBFocalLoss计算损失值，利用反向传播更新权重，优化模型。 7.根据权利要求6所述的一种基于深度学习的加密网络流量识别方法，其特征在于，输入至SKCN N网络的特征矩阵处理过程为：特征矩阵中的特征图依次经过5 ×5的卷积、最大池化、两次5 ×5卷积、一个SK卷积、一次1×1卷积和最后的全局平均池化，最终得到一个长度为8的特征向量；所述SK卷积为一种卷积神经网络的注意力机制，用于对通道加权，具体包括Split， Fuse， Select三个操作，其权　利　要　求　书 1/2 页 2 CN 114257428 A 2中： Split：将输入的加密网络流量特征图通过两个的卷积核变换得到两个分支和 Fuse：将两个分支输出的逐个元素进行相加，即然后，对两个输出U进行全局平均池化操作得每个通道上的全局信息s，即最后，对输出s做全连接获得每个通道的权重z，即其中δ为relu激活函数，为批量归一化(batchnorm)； Select：生成的权重z经由softmax运算得到权重a，再计算权重b＝ 1‑a， a和b分别对应和的权重，两两对应相乘得到U1和U2，计算Uout＝U1+U2， Uout为最终加权后的输出的特征图。 8.根据权利要求6所述的一种基于深度学习的加密网络流量识别方法，其特征在于， CBFocalLoss计算损失值表达式为： Z为softmax输出的预测结果， y是样本标签，超参数β∈[0,1)， ny为加密流量的类别数量， 9.根据权利要求1所述的一种基于深度学习的加密网络流量识别方法，其特征在于，步骤S6所述的利用训练好的识别模型对加密网络流量进行识别具体为：将预先人工识别并标记的网络流量数据其作为训练数据，重复训练模型直至最优，保存最优模型；向保存的最优模型中输入未识别的网络流量数据，自动识别出加密网络流量并进行标记。 10.一种基于深度学习的加密网络流量分类方法，其特征在于，包括以下步骤： S1：获取加密网络流量数据并进行预处理得到若干单独的会话； S2：对于预处理后的流量数据进行统计特征的选择； S3：对预处理后的流量数据进行有效载荷截取； S4：将统计特征和有效载荷进行特征整合并进行特征标准化； S5：利用整合后的特征对识别模型进行训练，得到训练好的识别模型； S6：利用训练好的识别模型对加密网络流量进行分类。权　利　要　求　书 2/2 页 3 CN 114257428 A 3

专利 一种基于深度学习的加密网络流量识别及分类方法

专利一种基于深度学习的加密网络流量识别及分类方法