说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211031858.5 (22)申请日 2022.08.26 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 潘洁 耿洋洋 车欣 邓瑞龙  赵成成 孙铭阳 程鹏 陈积明  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 刘静 (51)Int.Cl. H04L 9/40(2022.01) H04L 43/12(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于序列预测的工控网络流量异常检 测方法及装置 (57)摘要 本发明公开了一种基于序列预测的工控网 络流量异常检测方法及装置, 增加了工业控制系 统异常检测的召回率和检测精度。 本发明针对工 业控制系统流量包特征, 在考虑五元组信息基础 上, 考虑工控协议特有的功能码、 工业控制系统 长期稳定运行造成的数据包时间特征和功能码 和数据包长度的耦合性等特征, 利用多层次白名 单对报文进行初筛, 提高检测 效率, 减小异常数 据对模型性能的影响; 使用LSTM ‑SVM模型结构, 使用考虑时序信息的神经网络提取数据包间隐 藏的逻辑 关系, 使用SV M输出分类结果, 提高检测 准确率。 权利要求书3页 说明书7页 附图2页 CN 115396204 A 2022.11.25 CN 115396204 A 1.一种基于序列预测的工控网络流 量异常检测方法, 其特 征在于, 包括如下步骤: (1)采用混杂模式利用抓包软件采集工业控制系统通信数据, 包括长时间正常运行状 态下的数据包和异常状态下 的数据包, 去除内网主机自动查询默认网关的正常通信行为, 并对通信数据中的每条 数据包标记类别标签, 构建得到训练集; (2)对工业控制系统的每个数据包进行协议解析工作, 识别、 提取其中的有效特征, 包 括: 源IP、 目的IP、 源端口、 目的端口、 协议类型、 工控协议功能码、 数据包长度、 两条数据包 之间的时间 间隔、 工控协议数据段长度; (3)创建白名单, 并使用白名单进行初步筛查; 所述白名单包括依次排列的三个部分: 五元组白名单、 工控协 议功能码白名单、 工控协 议数据段长度白名单, 只有处于白名单范围 内的数据包 才能通过筛查, 将筛查 掉的数据包标记为异常数据包; (4)将每条 数据包中提取 出的有效特 征进行预处理, 转化为一条标准化的向量数据; (4.1)对时间间隔特征的预处理方式包括: 计算当前数据包接收时间与上一数据包接 收时间的时间间隔; 对时间间隔特征取10的对数后进行最大最小归一化处理, 将归一化后 的时间间隔特征利用聚类算法分为若干 分布区间, 将分布区间编号更新到原始对应数据包 中; (4.2)对数据包长度特征的预处理方式包括: 对于不同长度的数据包, 将其长度特征按 比例均匀压缩到不同的数字区间, 对压缩后的长度特征值进 行最大最小归一化处理后作为 数据包长度特 征; (4.3)将每条数据包的所有类别量、 经步骤(4.1)处理后的分布区间编号、 经过步骤 (4.2)处理后的数据包长度特征连接成可哈希的字 符串, 对数据包进行编号, 并转换成one ‑ hot向量; (5)利用步骤(4)得到的one ‑hot向量, 建立基于LSTM ‑SVM结构的预测模型, 用来预测下 一时刻数据包类型; 利用预测模型将异常检测问题转化为损失函数 的优化问题, 对预测模 型进行训练优化, 并更新预测模型的参数; (6)使用步骤(5)中训练完成的模型, 对实际工业控制系 统中待检测数据包进行检测, 判断数据包正常或异常。 2.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所 述步骤(1)中, 将外接设备接入工业控制系统内部通信网络, 采用混杂模式利用抓包软件 Wireshark采集工业控制系统通信数据, 数据来源为实际现场数据或安全测试平台数据。 3.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所 述步骤(2)中, 源IP、 目的IP、 源端口、 目的端口、 协议类型、 工控协议功能码是类别量, 长度 和时间间隔为数值量, 表示了数据包通信过程中承载的流量大小和通信频率信息, 其中时 间间隔承载了一定的工控设备指纹信息; 协议类型重点关注于使用的工控私有协议类型; 工控协议功能码为工控领域独有的、 表征操作者 意图的特 征。 4.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所 述步骤(2)中, 工控协 议的数据段部 分是工业控制系统通信数据包特有的部 分, 包含了上位 机对控制器的操作、 控制器实时状态或控制器内存 数据, 其长度和格式具有特殊定义, 与工 控协议功能码具有相关性, 通过识别工控协议数据段长度, 与工控协 议功能码进 行对比, 能 够校验数据包合法性, 解析 数据包目的性, 简捷快速地对数据包进行检测。权 利 要 求 书 1/3 页 2 CN 115396204 A 25.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所 述步骤(3)中, 所述五元组白名单的构建方法为: 从步骤(1)采集的长时间正常运行状态下 的数据包中提取源IP、 目的IP、 源端口、 目的端口、 协议类型特征, 以哈希表方式存储, 形成 五元组白名单; 所述工控协议功能码白名单的构建方法为: 从步骤(1)采集的长时间正常运行状态下 的数据包中提取工控协议功能码, 形成功能码白名单; 所述工控协议数据段长度白名单的构建方法为: 工控协议数据段长度与工控协议功能 码具有相关性, 同种工控协议功 能码其数据段长度限定于一定长度范围内或为固定长度, 根据专家经验设定数据段长度范围形成工控协议数据段长度白名单。 6.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所 述步骤(4)中, 对时间 间隔特征的预处 理方式具体为: (a)计算当前 数据包接收时间与上一数据包接收时间的时间 间隔, 计算公式如下: 其中i代表当前数据包编号, Δti代表第i条数据包的时间间隔特征, ti代表数据包i的 接收时间; 抓取到的第一条数据包的时间间隔c利用第2 ‑4个时间间隔数据采用最小二乘法 估计得到; (b)对时间间隔特征取10的对数之后, 进行最大最小归一化处理, 将归一化后的时间间 隔特征利用聚类算法分为若干分布区间, 将分布区间编号更新到原 始对应数据包中。 7.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所 述步骤(4)中, 对数据包长度特征的预处理方式具体为: 对于长度为0 ‑150字节区间的数据 包, 将其长度特征按比例均匀压缩到0 ‑9, 对于长度为 150‑999字节区间的数据包, 将其长度 特征按比例均匀压缩到9 ‑20, 经过分区段压缩后的长度特征值在0与 20之间, 对压缩后的长 度特征值进行最大最小归一 化处理后作为数据包长度特 征。 8.根据权利要求1所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所 述步骤(5)中, 所述预测模型包括依次连接的Embedding层、 LSTM隐藏层1、 Dropout层、 LSTM 隐藏层2和SVM层; Embedding层将输入的one ‑hot向量转换为长度为N的词向量; 两个LSTM隐 藏层接收样 本特征用于训练; Dropout层用于避免模 型过拟合; SVM层作为输出层, 以LSTM隐 藏层2输出的隐含层 稀疏特征数据作为输入, 输出数据包类型; 所述SVM层的分类决策函数f 如下: 其中 为拉格朗日乘子且 y(n)为类别标签, y∈{+1, ‑1}, sgn(·)为符号函数, 当, b*为偏置, k( ·,·)为径向基核函数, x(n)为训练集中的第n个样本, x为自变量。 9.根据权利要求8所述的基于序列 预测的工控 网络流量异常检测方法, 其特征在于, 所 述步骤(5)中, 损失函数L公式如下: L=max(0,1 ‑y(n)wTx(n)) 其中w为训练得到的权重向量, T表示转置; 训练过程中利用Adam优化算法更新权重向权 利 要 求 书 2/3 页 3 CN 115396204 A 3

PDF文档 专利 一种基于序列预测的工控网络流量异常检测方法及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于序列预测的工控网络流量异常检测方法及装置 第 1 页 专利 一种基于序列预测的工控网络流量异常检测方法及装置 第 2 页 专利 一种基于序列预测的工控网络流量异常检测方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:05:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。