(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211031858.5
(22)申请日 2022.08.26
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 潘洁 耿洋洋 车欣 邓瑞龙
赵成成 孙铭阳 程鹏 陈积明
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 刘静
(51)Int.Cl.
H04L 9/40(2022.01)
H04L 43/12(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于序列预测的工控网络流量异常检
测方法及装置
(57)摘要
本发明公开了一种基于序列预测的工控网
络流量异常检测方法及装置, 增加了工业控制系
统异常检测的召回率和检测精度。 本发明针对工
业控制系统流量包特征, 在考虑五元组信息基础
上, 考虑工控协议特有的功能码、 工业控制系统
长期稳定运行造成的数据包时间特征和功能码
和数据包长度的耦合性等特征, 利用多层次白名
单对报文进行初筛, 提高检测 效率, 减小异常数
据对模型性能的影响; 使用LSTM ‑SVM模型结构,
使用考虑时序信息的神经网络提取数据包间隐
藏的逻辑 关系, 使用SV M输出分类结果, 提高检测
准确率。
权利要求书3页 说明书7页 附图2页
CN 115396204 A
2022.11.25
CN 115396204 A
1.一种基于序列预测的工控网络流 量异常检测方法, 其特 征在于, 包括如下步骤:
(1)采用混杂模式利用抓包软件采集工业控制系统通信数据, 包括长时间正常运行状
态下的数据包和异常状态下 的数据包, 去除内网主机自动查询默认网关的正常通信行为,
并对通信数据中的每条 数据包标记类别标签, 构建得到训练集;
(2)对工业控制系统的每个数据包进行协议解析工作, 识别、 提取其中的有效特征, 包
括: 源IP、 目的IP、 源端口、 目的端口、 协议类型、 工控协议功能码、 数据包长度、 两条数据包
之间的时间 间隔、 工控协议数据段长度;
(3)创建白名单, 并使用白名单进行初步筛查; 所述白名单包括依次排列的三个部分:
五元组白名单、 工控协 议功能码白名单、 工控协 议数据段长度白名单, 只有处于白名单范围
内的数据包 才能通过筛查, 将筛查 掉的数据包标记为异常数据包;
(4)将每条 数据包中提取 出的有效特 征进行预处理, 转化为一条标准化的向量数据;
(4.1)对时间间隔特征的预处理方式包括: 计算当前数据包接收时间与上一数据包接
收时间的时间间隔; 对时间间隔特征取10的对数后进行最大最小归一化处理, 将归一化后
的时间间隔特征利用聚类算法分为若干 分布区间, 将分布区间编号更新到原始对应数据包
中;
(4.2)对数据包长度特征的预处理方式包括: 对于不同长度的数据包, 将其长度特征按
比例均匀压缩到不同的数字区间, 对压缩后的长度特征值进 行最大最小归一化处理后作为
数据包长度特 征;
(4.3)将每条数据包的所有类别量、 经步骤(4.1)处理后的分布区间编号、 经过步骤
(4.2)处理后的数据包长度特征连接成可哈希的字 符串, 对数据包进行编号, 并转换成one ‑
hot向量;
(5)利用步骤(4)得到的one ‑hot向量, 建立基于LSTM ‑SVM结构的预测模型, 用来预测下
一时刻数据包类型; 利用预测模型将异常检测问题转化为损失函数 的优化问题, 对预测模
型进行训练优化, 并更新预测模型的参数;
(6)使用步骤(5)中训练完成的模型, 对实际工业控制系 统中待检测数据包进行检测,
判断数据包正常或异常。
2.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所
述步骤(1)中, 将外接设备接入工业控制系统内部通信网络, 采用混杂模式利用抓包软件
Wireshark采集工业控制系统通信数据, 数据来源为实际现场数据或安全测试平台数据。
3.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所
述步骤(2)中, 源IP、 目的IP、 源端口、 目的端口、 协议类型、 工控协议功能码是类别量, 长度
和时间间隔为数值量, 表示了数据包通信过程中承载的流量大小和通信频率信息, 其中时
间间隔承载了一定的工控设备指纹信息; 协议类型重点关注于使用的工控私有协议类型;
工控协议功能码为工控领域独有的、 表征操作者 意图的特 征。
4.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所
述步骤(2)中, 工控协 议的数据段部 分是工业控制系统通信数据包特有的部 分, 包含了上位
机对控制器的操作、 控制器实时状态或控制器内存 数据, 其长度和格式具有特殊定义, 与工
控协议功能码具有相关性, 通过识别工控协议数据段长度, 与工控协 议功能码进 行对比, 能
够校验数据包合法性, 解析 数据包目的性, 简捷快速地对数据包进行检测。权 利 要 求 书 1/3 页
2
CN 115396204 A
25.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所
述步骤(3)中, 所述五元组白名单的构建方法为: 从步骤(1)采集的长时间正常运行状态下
的数据包中提取源IP、 目的IP、 源端口、 目的端口、 协议类型特征, 以哈希表方式存储, 形成
五元组白名单;
所述工控协议功能码白名单的构建方法为: 从步骤(1)采集的长时间正常运行状态下
的数据包中提取工控协议功能码, 形成功能码白名单;
所述工控协议数据段长度白名单的构建方法为: 工控协议数据段长度与工控协议功能
码具有相关性, 同种工控协议功 能码其数据段长度限定于一定长度范围内或为固定长度,
根据专家经验设定数据段长度范围形成工控协议数据段长度白名单。
6.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所
述步骤(4)中, 对时间 间隔特征的预处 理方式具体为:
(a)计算当前 数据包接收时间与上一数据包接收时间的时间 间隔, 计算公式如下:
其中i代表当前数据包编号, Δti代表第i条数据包的时间间隔特征, ti代表数据包i的
接收时间; 抓取到的第一条数据包的时间间隔c利用第2 ‑4个时间间隔数据采用最小二乘法
估计得到;
(b)对时间间隔特征取10的对数之后, 进行最大最小归一化处理, 将归一化后的时间间
隔特征利用聚类算法分为若干分布区间, 将分布区间编号更新到原 始对应数据包中。
7.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所
述步骤(4)中, 对数据包长度特征的预处理方式具体为: 对于长度为0 ‑150字节区间的数据
包, 将其长度特征按比例均匀压缩到0 ‑9, 对于长度为 150‑999字节区间的数据包, 将其长度
特征按比例均匀压缩到9 ‑20, 经过分区段压缩后的长度特征值在0与 20之间, 对压缩后的长
度特征值进行最大最小归一 化处理后作为数据包长度特 征。
8.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所
述步骤(5)中, 所述预测模型包括依次连接的Embedding层、 LSTM隐藏层1、 Dropout层、 LSTM
隐藏层2和SVM层; Embedding层将输入的one ‑hot向量转换为长度为N的词向量; 两个LSTM隐
藏层接收样 本特征用于训练; Dropout层用于避免模 型过拟合; SVM层作为输出层, 以LSTM隐
藏层2输出的隐含层 稀疏特征数据作为输入, 输出数据包类型; 所述SVM层的分类决策函数f
如下:
其中
为拉格朗日乘子且
y(n)为类别标签, y∈{+1, ‑1}, sgn(·)为符号函数,
当, b*为偏置, k( ·,·)为径向基核函数, x(n)为训练集中的第n个样本, x为自变量。
9.根据权利要求8所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所
述步骤(5)中, 损失函数L公式如下:
L=max(0,1 ‑y(n)wTx(n))
其中w为训练得到的权重向量, T表示转置; 训练过程中利用Adam优化算法更新权重向权 利 要 求 书 2/3 页
3
CN 115396204 A
3
专利 一种基于序列预测的工控网络流量异常检测方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:05:48上传分享