(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111536690.9
(22)申请日 2021.12.15
(71)申请人 南京理工大 学
地址 210094 江苏省南京市孝陵卫20 0号
(72)发明人 杨威 张泽栋 魏松杰 张文哲
(74)专利代理 机构 南京理工大 学专利中心
32203
代理人 王玮
(51)Int.Cl.
H04L 47/2441(2022.01)
H04L 41/142(2022.01)
H04L 9/40(2022.01)
G06K 9/62(2022.01)
(54)发明名称
基于分组条件熵的网络流量多模块聚类异
常检测方法
(57)摘要
本发明公开了一种基于分组条件熵的网络
流量多模块聚类异常检测方法, 将原始网络流量
数据进行预处理后分割成为各个特征组, 将特征
组进行初步聚类后求出聚类结果置信度并求条
件熵, 之后再将每组条件熵进行进一步聚类来求
出该网络包 是否具有异常流量的特征。 本发明的
网络流量数据处理方法, 将其最大限度抽象, 设
计了分组多模块聚类算法来进行网络流量异常
检测, 将原本分散且影 响因子小的特征组合在一
起, 将其转换成汇聚且对分类结果影 响更大的组
别。 能更加有效地提高数据的抽象程度, 使其中
各类异常流量都能在聚类结果中表现出更紧密
的汇聚效果。
权利要求书2页 说明书4页 附图3页
CN 114390002 A
2022.04.22
CN 114390002 A
1.一种基于分组条件熵的网络流量多模块聚类异常检测方法, 其特征在于, 包括以下
步骤:
步骤1、 数据预处理, 将原始网络流量数据集中的数据进行数据清洗以及均方编码化,
将其转化成为分布一 致的数值型 数据;
步骤2、 数据分组, 根据各个预处理之后的数据的特征之间的相关系数、 特征的形成方
式及特点将所有特 征分类到若干特 征组中;
步骤3、 数据划分, 将预处 理之后的数据划分为模型建立数据以及测试 数据;
步骤4、 分组建模, 将模型建立数据中的所有数据 特征按照 其所属特征组切分为分组数
据, 并将每一组数据输入到聚类模型, 得到每组的分簇情况以及分簇结果;
步骤5、 汇聚建模, 将分组建模后的分簇结果相对于分簇结果的实际类别求条件熵并将
条件熵进行聚类, 得到 完整的多模块聚类模型;
步骤6、 数据测试, 将测试 数据输入到 完整的多模块聚类模型, 得到检测结果。
2.根据权利要求1所述的基于分组条件熵的网络流量多模块聚类异常检测方法, 其特
征在于, 步骤1所述的数据预处理方式为: 针对网络流量数据, 首先绘制各特征概率分布统
计图, 按照图像表示将所有特征分为连续型数据和离散型数据两部分, 将所有连续型数据
取对数降低其分布数量级, 对于离散型数据根据特征中不同取值数量设立阈值, 如果特征
不同取值数量超过阈值则将特征中所有数据按照占特征总分布的分位数进 行分组, 并用组
号直接代替原数据值, 最后将所有离 散型数据作one‑hot编码;
在分别处理完离散型以及连续型数据后, 利用均方误差的均 方化方式将所有数据进行
均方化, 将所有特 征分布映射到统一的分布区间内, 所述均方化方式实现的具体算法为:
设对于特 征样本f, 其中x1fx2f...xnf为各特征值, mf为样本f的平均值, 即为:
之后求出f样本均方误差:
最后对于每一特 征值xif,其均方值zif为:
3.根据权利要求1所述的基于分组条件熵的网络流量多模块聚类异常检测方法, 其特
征在于, 步骤2所述的分组方式为: 对数据预处理结束的数据求相关系 数矩阵, 之后根据特
征名内容将所有特征分成包特征组、 流特征组、 标志位特征组、 流空闲时间特征组, 并对每
个特征标记所属组别, 对于特征名中没有可分组信息的特征, 将该特征放入与这一特征相
关系数大于 设定的阈值的特征所属的特征组, 最后 将所有未被分组的 “孤立特征 ”统一放入
“其他”组, 并对每 个特征标记所属组别。
4.根据权利要求1所述的基于分组条件熵的网络流量多模块聚类异常检测方法, 其特
征在于, 步骤4所述的分组建模方式为: 将划分后的训练数据按照时间窗口分割成时间窗口
数据, 再对于每个时间窗口数据中所有 特征按照步骤2中特征组划分规则划分为特征组, 对
于不同的特征组, 选择不同的聚类模型进 行聚类, 首先使用基于密度的模型进 行聚类, 之后权 利 要 求 书 1/2 页
2
CN 114390002 A
2比较数据自身的时间窗口范围与实际收敛时间大小关系, 若收敛时间大于数据中时间窗口
范围则改用基于划分的模型进行聚类; 最后根据使用的聚类模型保存类簇信息, 若聚类模
型为基于划分则保存类簇每一特征的数据范围, 若聚类模型为基于密度则保存类簇外围所
有数据的值以及模型的超参数组[ ε, Mi nPts]。
5.根据权利要求1所述的基于分组条件熵的网络流量多模块聚类异常检测方法, 其特
征在于, 步骤5所述的汇聚建模方式为: 每次得到分组建模阶段的分簇结果后, 将新得到的
分簇结果与同特征组内其他所有类簇作相似性比较, 若两类簇之 间存在包含关系或交叉关
系则将两类簇的数据范围以及可能所属的网络流量类别合并为一个可能同时属于两个网
络流量类别的类簇, 最后得到分组建模阶段 的分簇结果后, 将所有的分簇对于其可能所属
的网络流量类别求取条件熵, 并将每一类网络流量的所有特征组中分簇的条件熵进行聚
类, 最后形成的类簇就是每一类网络流 量的类簇形状。
6.根据权利要求1所述的基于分组条件熵的网络流量多模块聚类异常检测方法, 其特
征在于, 步骤6所述的数据测试 方式为:
(1)对于测试数据中的每一条数据, 首先按照分组情况将数据切分成相对应的特征组,
并将每一特征组中的特征与分组建模后的分簇结果依 次根据特征组对应的聚类模型的类
簇形成方式判断该组数据匹配哪一类簇, 若最后没有匹配的类簇则认为其不属于任何异常
流量类簇, 即为 正常网络流 量数据;
(2)将所有特 征组的分簇结果 替换为该分簇对于可能所属的网络流 量类别的条件熵;
(3)将所有条件熵与汇聚建模后形成的分簇结果作比较, 判断该条件熵组属于哪一类
网络流量相对应的类簇, 最后该条数据的分类结果就是汇聚建模后的分簇所属的网络流量
的类别。权 利 要 求 书 2/2 页
3
CN 114390002 A
3
专利 基于分组条件熵的网络流量多模块聚类异常检测方法
安全报告 >
其他 >
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:35:18上传分享