专利一种基于机器学习的SSR流量识别系统及方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111370935.5 (22)申请日 2021.11.18 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号 (72)发明人杨超　陈明哲　张伦玮　李玥　郑昱　 (74)专利代理机构陕西电子工业专利中心 61205 代理人侯琼　王品华 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) H04L 43/0876(2022.01) H04L 69/22(2022.01) (54)发明名称一种基于机器学习的SSR流量识别系统及方法 (57)摘要本发明一种基于机器学习的SSR流量识别系统及方法，主要解决现有技术面对复杂多变的实际网络环境无法有效识别SSR流量的问题。系统包括：数据包捕获模块、处理模块、分析模块、识别模块，识别信息存储模块，识别结果分析模块和web界面。方法的步骤为：数据包捕获模块获取网络数据流量，数据包处理模块从该流量中提取数据包的基础信息，数据包分析模块根据信息对数据包进行预处理，再由数据包识别模块进行识别，将结果存入识别信息存储模块，识别结果分析模块对结果进行实时分析，并将分析结果通过 web界面展示。本发明不仅保证了较高的SSR识别准确率，且通过优化系统中的运算过程，使其可以在较大规模网关下做到实时采集与识别。权利要求书3页说明书8页附图3页 CN 114091602 A 2022.02.25 CN 114091602 A 1.一种基于机器学习的SSR流量识别系统，其特征在于，包括：数据采集识别单元、识别信息存储模块和数据分析展示单元；其中，数据采集识别单元由依次单向连接的数据包捕获模块、数据包处理模块、数据包分析模块以及数据包识别模块组成，数据分析展示单元由识别结果分析模块和web界面构成；识别信息存储模块分别连接数据采集识别单元与数据分析展示单元；所述数据包捕获模块，用于获取网络数据流量；所述数据包处理模块，用于从数据包捕获模块获取的网络数据流量中提取数据包的基础信息；所述数据包分析模块，用于根据数据包处理模块得到的基础信息对数据包进行预处理，得到预处理后流量信息；所述数据包识别模块，用于对数据包分析模块得到的预处理后流量信息进行识别，得到识别结果；所述识别信息存储模块，用于对数据采集识别单元中数据包识别模块得到的识别结果进行存储，并供数据分析展示单元中的识别结果分析模块调用；所述识别结果分析模块，用于对识别信息存储模块中存储的信息进行实时分析，并将分析结果展示在web界面上供分析人员查询。 2.根据权利要求1所述的系统，其特征在于：所述数据包的基础信息至少包括载荷特征、长度和时间。 3.根据权利要求1所述的系统，其特征在于：所述数据包分析模块根据数据包处理模块得到的基础信息对数据包进行预处理，具体是进行流量分组、过滤操作；过滤包括：滤掉除 TCP协议外的其它所有协议的数据包，滤掉网络连接异常导致重传的数据包。 4.根据权利要求1所述的系统，其特征在于：所述数据包识别模块，对数据包分析模块得到的预处理后流量信息进行识别，具体是对预处理后流量信息中的分组数据流提取特征，然后利用机器学习完成识别。 5.根据权利要求1所述的系统，其特征在于：所述识别信息存储模块，对数据采集识别单元中数据包识别模块得到的识别结果进行存储，是根据识别结果的归属类型，以数据流开始时间为索引，将其存储到数据库中。 6.一种使用基于机器学习的SSR流量识别系统进行流量识别的方法，其特征在于，包括如下步骤： (1)根据设备网卡流量到达情况对数据流量进行捕获： (1.1)对网关流量规模进行预估，根据评估结果设置单次捕获数量级与初始排队时间，保证单轮捕获数据时间在3 0‑45秒范围内； (1.2)设计实时系统冗余机制，即设定动态停等时间，该时间根据系统内部内存占用比例、处理器计算任务量、处理捕获文件队列数量经过实时计算得到； (1.3)按照流水线方式，循环调用数据包捕获模块，获取网络数据流量； (2)通过数据包处理模块从网络数据流量中提取数据包的基础信息，得到包括荷载特征、长度、时间的数据流量荷载信息； (3)利用数据流量荷载信息对数据包进行预处理： (3.1)数据包分析模块根据数据流量的荷载特征对数据包进行过滤，滤掉除TCP协议外权　利　要　求　书 1/3 页 2 CN 114091602 A 2的其它所有协议的数据包，仅保留TCP数据包，且滤掉其中因网络连接异常导致重传的数据包，得到数据包集合R： R＝{pkg1,pkg2,...,pkgi,...,pkgr}，其中， pkgi表示集合R中的第i个数据包， i ＝1,2,...,r， r表示过滤后数据包的总数； (3.2)数据包分析模块按照如下规则对数据包进行分组： (3.2.1)提取数据包pkgi的源IP地址 IPsrc‑i、源端口Portsrc‑i、目的IP地址IPdst‑i、目的端口Portdst‑i和传输层协议protoi五类信息，并将其组成数据包pkgi的头部hi： hi＝(IPsrc‑i,Portsrc‑i,IPdst‑i,Portdst‑i,protoi)， pkgi＝{hi,Len(pkgi),stimei}；其中， Len(pkgi)表示数据包pkgi的长度， stimei表示数据包pkgi的到达时间； (3.2.2)在数据包集合R中，对于与数据包pkgi相同或相反的数据包，将其头部与pkgi构成一个分组数据流； (3.2.3)取i＝1,2,...,r按照步骤(3.2.1) ‑(3.2.2)得到数据包集合R中每个数据包对应的分组数据流，所有分组数据流共同组成分组后的数据流集合D，即预处理后流量信息： D＝{flow1,flow2,...,flowk,...,flowd}，其中， flowk表示第k个分组数据流， k ＝1,2,...,d， d表示分组数据流的总数目； (4)数据包识别模块对数据流集合D中的分组数据流提取特征并进行筛选，利用机器学习进行识别： (4.1)统计分组数据流flowk内所有数据包的数量，记为total(flowk)，将所有数据包中与第一个数据包发送方向相同的数据包记为输出包、其余数据包记为输入包； (4.2)分别计算flowk内所有输入包、所有输出包以及所有数据包长度的统计值：平均值、最小值、最大值、绝对差、绝对中位差、标准差、方差、偏斜、峰度、 10％ ‑90％百分位数； (4.3)将步骤(4.2)得到的统计值组成flowk的统计特征向量PLSk，所有分组数据流对应的统计特征向量共同组成包长度统计特征矩阵PLS； (4.4)对包长度统计特征矩阵PLS中的特征进行前向搜索组合特征筛选，将特征分为积极特征和消极特征两类，再次进行前向搜索，直到结果最优，获取到优化后包长度统计特征矩阵PLS'； (4.5)将矩阵PLS'输入基于随机森林算法训练的模型进行识别，得到识别结果，并将结果存于识别信息存储模块中； (5)识别信息存储模块按照识别结果将其分为SSR类结果和所有结果两类，以数据流开始时间为索引，存储到特定数据库mysql中； (6)识别结果分析模块对数据库mysql中记录信息进行实时分析，并输出分析结果： (6.1)针对数据库mysql中一段时间内的识别结果，对其进行统计并计算得分 score：其中， Numssr表示识别SSR流量的数量， Numall表示数据流总数， Numdst表示通信目的地址数量； (6.2)根据得分score对不同设备使用的SSR流量进行排名，同时对不同的置信度进行动态设定，得到单个用户多维度的流量分析结果；权　利　要　求　书 2/3 页 3 CN 114091602 A 3

专利 一种基于机器学习的SSR流量识别系统及方法

专利一种基于机器学习的SSR流量识别系统及方法