(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210905203.X
(22)申请日 2022.07.29
(71)申请人 广东电网有限责任公司
地址 510600 广东省广州市越秀区东 风东
路757号
(72)发明人 曾纪钧 梁哲恒 沈桂泉 龙震岳
张金波 张小陆 崔磊 沈伍强
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 李淑静
(51)Int.Cl.
H04L 9/40(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)G06F 16/955(2019.01)
(54)发明名称
基于特征融合的电网信息系统网络攻击检
测方法及装置
(57)摘要
本发明公开了一种基于特征融合的电网信
息系统网络攻击检测方法及装置, 所述方法包
括: 对样本URL数据进行数据预处理; 基于预处理
后的URL数据, 提取包括词汇特征和 统计特征在
内的文本特征, 构建文本 特征向量, 利用FFM学习
文本特征向量之间的潜在交互关系; 基于预处理
后的URL数据, 执行token提取以从URL中获取
tokens, 通过word2 vec学习URL tokens的向量表
示, 利用时间卷积网络 学习URL tokens向量之间
的距离依赖关系; 利用自定进度学习策略协同训
练FFM和时间卷积网络, 利用训练好的模型对待
检测的URL数据进行识别, 基于特征融合的识别
结果完成恶意URL的检测。 本发明针对电网中生
命周期短、 动态随混淆策略而变化的恶意URL检
测提供了有效手段。
权利要求书3页 说明书10页 附图2页
CN 115242539 A
2022.10.25
CN 115242539 A
1.一种基于特 征融合的电网信息系统网络攻击检测方法, 其特 征在于, 包括以下步骤:
对样本URL数据进行数据预处理, 包括去除重复样本、 数据修剪、 格 式化, 所述数据修剪
去除指定条件的符号和字符, 所述格式化将数据分为两列, 修剪后的URL放置在第一列中,
URL的标签放置在第二列中, 其中标签标记了URL是否恶意;
基于预处理后的URL数据, 提取包括词 汇特征和统计特征在内的文本特征, 构建文本特
征向量, 利用双线性因子分解机学习文本特 征向量之间的潜在交 互关系;
基于预处理后的URL数据, 执行token提取以从URL中获取tokens, 通过word2vec学习
URL tokens的向量表示, 利用时间卷积网络学习URLtokens向量之间的距离依赖关系, 所述
距离依赖关系称为结构特 征;
利用自定进度 学习策略协同训练双线性因子分解机和时间卷积网络, 在整体模型训练
好之后, 利用训练好的模 型对待检测的URL数据进 行识别, 基于特征融合的识别结果完成恶
意URL的检测, 所述自定进度学习策略通过逐渐加入学习数据来减少熵值, 训练出潜在的权
重参数, 并通过在损失函数中引入权 重变量来表示样本是否被选择。
2.根据权利要求1所述的方法, 其特 征在于, 所述数据修剪包括:
对于提取文本特征的数据修剪, 针对URL数据集, 首先将字符选为最小的数据处理单
元, 接着进行字符频率统计, 删除频率低于指定数量的特殊字符, 并对URL长度进行标准化
操作, 所述标准化操作包括将URL长度与指定长度阈值比较, 比指定阈值长的部分被截断,
短部分用零 填充;
对于提取结构特征的数据修剪, 针对URL数据集, 删除最后一个#后面的连续字符串, 并
删除最后一个? 后面的顺序字符串。
3.根据权利要求1所述的方法, 其特征在于, 所述利用双线性因子分解机学习 文本特征
向量之间的潜在交 互关系包括:
其中ω0是模型偏差; ωi∈R是对特征变 量xi的权重建模;
表征变
量xi和xj之间的成对交互, k表示 隐向量长度; n代表样本的特征数量; vi,f表示xi的辅助向
量,
表示向量xi在对应域fj的辅助向量,
为向量xj在对应域fi的辅助向量。
4.根据权利要求1所述的方法, 其特征在于, 执行token提取以从URL中获取tokens包
括:
按/的位置将URL分成四个块: 协议、 域、 路径和文件, 第一个/之前的块作为协议部分;
第二个/之前的字符串定义为域部分; 最后一个/之后的字符串被视为文件部分; 其余字符
串被视为路径部分, 利用对齐策略将tokens定位在带有不同类型括号的不同卡盘上, 其中
协议部分的每个token都放在大括号{}中, 域部分中的每个标记都放在括号()中, 路径部
分中的标记放在尖括 号<>中, 文件部分中的标记用方括 号[]。
5.根据权利要求1所述的方法, 其特征在于, 所述利用时间卷积网络学习URLtokens向
量之间的距离依赖关系包括:
时间卷积网络输入层将token向量化的数据作为模型的输入, 时间卷积网络由多个残
差模块堆叠而成, 负责提取对应的序列的时序特征, 每个残差模块有一个输入, 称为X, 两个权 利 要 求 书 1/3 页
2
CN 115242539 A
2输出, 均为高维张量, 一个表示该模块 所提取出的特征HT, 一个表示 该模块输出的残差RT, 每
个残差模块由4个一维卷积层Conv0、 Conv1、 Conv2、 Conv3组成: 第一个卷积层Conv对输入做
初步处理, 输出为C0; 第二个卷积层Conv1的输入为C0, 输出经过DropOut后选择使用Sigmoid
函数激活, 称之C1, 第三个卷积层的输入为C0, 输出经过DropOut后 选择使用Tanh函数激活,
称之为C2, C1和C2的输入需要考虑TCN的扩张卷积参数d, 并在逐元素相乘后输入conv3, 其输
出即为HT, HT与模块输入X相加后即得到另一个输出RT。
6.根据权利要求1所述的方法, 其特 征在于, 所述自定进度学习策略包括:
给定数据集D={(x1,y1),...,(xn,yn)}, 其中xi∈Rm表示D中第i个URL的特征, yi是第i个
URL的对应类, 由文本分量引起的基本事实yi和估计标签
之间的损失用
表示,
结构分量的损失用
表示, 其中
是指第i个样本的深度分量的预测结果;
自定进度 学习策略共同训练双线性因子分解机模型和时间卷积网络模型模型的参数w
并通过最小化如下等式来学习潜在的权 重变量v=[v1,....,vn]:
其中参数λ控制学习率, Lw是指用逻辑损失量化 的文本部分的损失; Ld表示由交叉熵损
失测量的深层结构损失。
7.根据权利要求1所述的方法, 其特征在于, 使用skip ‑gram模型来训练URL tokens的
矢量化表示。
8.一种基于特 征融合的电网信息系统网络攻击检测装置, 其特 征在于, 包括:
预处理模块, 对样本URL数据进行数据预处理, 包括去除重复样本、 数据修剪、 格式化,
所述数据修剪去除指 定条件的符号和字符, 所述格式化将数据分为两列, 修剪后的URL放置
在第一列中, URL的标签放置在第二列中, 其中标签标记了URL是否恶意;
文本特征提取模块, 基于预处理后的URL数据, 提取包括词汇特征和统计特征在内的文
本特征, 构建文本特征向量, 利用双线性因子分解机学习文本特征向量之间的潜在交互关
系;
结构特征提取模块, 基于预处理后的URL数据, 执行token提取以从URL中获取tokens,
通过word2vec学习URL tokens的向量表示, 利用时间卷积网络学习URLtokens向量之间的
距离依赖关系, 所述距离依赖关系称为结构特 征;
特征融合模块, 利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络,
在整体模型训练好之后, 利用训练好的模型对待检测的URL数据进 行识别, 基于特征融合的
识别结果完成恶意URL的检测, 所述自定进度学习策略通过逐渐加入 学习数据来减少熵 值,
训练出潜在的权 重参数, 并通过在损失函数中引入权 重变量来表示样本是否被选择。
9.一种计算机设备, 其特 征在于, 包括:
一个或多个处 理器;
存储器; 以及
一个或多个程序, 其中所述一个或多个程序被存储在所述存储器中, 并且被配置为由
所述一个或多个处理器执行, 所述程序被处理器执行时实现如权利要求1 ‑7中任一项所述
的基于特 征融合的电网信息系统网络攻击检测方法的步骤。权 利 要 求 书 2/3 页
3
CN 115242539 A
3
专利 基于特征融合的电网信息系统网络攻击检测方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:03上传分享