专利 基于特征融合的电网信息系统网络攻击检测方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210905203.X (22)申请日 2022.07.29 (71)申请人广东电网有限责任公司地址 510600 广东省广州市越秀区东风东路757号 (72)发明人曾纪钧　梁哲恒　沈桂泉　龙震岳　张金波　张小陆　崔磊　沈伍强　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师李淑静 (51)Int.Cl. H04L 9/40(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01)G06F 16/955(2019.01) (54)发明名称基于特征融合的电网信息系统网络攻击检测方法及装置 (57)摘要本发明公开了一种基于特征融合的电网信息系统网络攻击检测方法及装置，所述方法包括：对样本URL数据进行数据预处理；基于预处理后的URL数据，提取包括词汇特征和统计特征在内的文本特征，构建文本特征向量，利用FFM学习文本特征向量之间的潜在交互关系；基于预处理后的URL数据，执行token提取以从URL中获取 tokens，通过word2 vec学习URL tokens的向量表示，利用时间卷积网络学习URL tokens向量之间的距离依赖关系；利用自定进度学习策略协同训练FFM和时间卷积网络，利用训练好的模型对待检测的URL数据进行识别，基于特征融合的识别结果完成恶意URL的检测。本发明针对电网中生命周期短、动态随混淆策略而变化的恶意URL检测提供了有效手段。权利要求书3页说明书10页附图2页 CN 115242539 A 2022.10.25 CN 115242539 A 1.一种基于特征融合的电网信息系统网络攻击检测方法，其特征在于，包括以下步骤：对样本URL数据进行数据预处理，包括去除重复样本、数据修剪、格式化，所述数据修剪去除指定条件的符号和字符，所述格式化将数据分为两列，修剪后的URL放置在第一列中， URL的标签放置在第二列中，其中标签标记了URL是否恶意；基于预处理后的URL数据，提取包括词汇特征和统计特征在内的文本特征，构建文本特征向量，利用双线性因子分解机学习文本特征向量之间的潜在交互关系；基于预处理后的URL数据，执行token提取以从URL中获取tokens，通过word2vec学习 URL tokens的向量表示，利用时间卷积网络学习URLtokens向量之间的距离依赖关系，所述距离依赖关系称为结构特征；利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络，在整体模型训练好之后，利用训练好的模型对待检测的URL数据进行识别，基于特征融合的识别结果完成恶意URL的检测，所述自定进度学习策略通过逐渐加入学习数据来减少熵值，训练出潜在的权重参数，并通过在损失函数中引入权重变量来表示样本是否被选择。 2.根据权利要求1所述的方法，其特征在于，所述数据修剪包括：对于提取文本特征的数据修剪，针对URL数据集，首先将字符选为最小的数据处理单元，接着进行字符频率统计，删除频率低于指定数量的特殊字符，并对URL长度进行标准化操作，所述标准化操作包括将URL长度与指定长度阈值比较，比指定阈值长的部分被截断，短部分用零填充；对于提取结构特征的数据修剪，针对URL数据集，删除最后一个#后面的连续字符串，并删除最后一个？后面的顺序字符串。 3.根据权利要求1所述的方法，其特征在于，所述利用双线性因子分解机学习文本特征向量之间的潜在交互关系包括：其中ω0是模型偏差； ωi∈R是对特征变量xi的权重建模；表征变量xi和xj之间的成对交互， k表示隐向量长度； n代表样本的特征数量； vi,f表示xi的辅助向量，表示向量xi在对应域fj的辅助向量，为向量xj在对应域fi的辅助向量。 4.根据权利要求1所述的方法，其特征在于，执行token提取以从URL中获取tokens包括：按/的位置将URL分成四个块：协议、域、路径和文件，第一个/之前的块作为协议部分；第二个/之前的字符串定义为域部分；最后一个/之后的字符串被视为文件部分；其余字符串被视为路径部分，利用对齐策略将tokens定位在带有不同类型括号的不同卡盘上，其中协议部分的每个token都放在大括号{}中，域部分中的每个标记都放在括号()中，路径部分中的标记放在尖括号<>中，文件部分中的标记用方括号[]。 5.根据权利要求1所述的方法，其特征在于，所述利用时间卷积网络学习URLtokens向量之间的距离依赖关系包括：时间卷积网络输入层将token向量化的数据作为模型的输入，时间卷积网络由多个残差模块堆叠而成，负责提取对应的序列的时序特征，每个残差模块有一个输入，称为X，两个权　利　要　求　书 1/3 页 2 CN 115242539 A 2输出，均为高维张量，一个表示该模块所提取出的特征HT，一个表示该模块输出的残差RT，每个残差模块由4个一维卷积层Conv0、 Conv1、 Conv2、 Conv3组成：第一个卷积层Conv对输入做初步处理，输出为C0；第二个卷积层Conv1的输入为C0，输出经过DropOut后选择使用Sigmoid 函数激活，称之C1，第三个卷积层的输入为C0，输出经过DropOut后选择使用Tanh函数激活，称之为C2， C1和C2的输入需要考虑TCN的扩张卷积参数d，并在逐元素相乘后输入conv3，其输出即为HT， HT与模块输入X相加后即得到另一个输出RT。 6.根据权利要求1所述的方法，其特征在于，所述自定进度学习策略包括：给定数据集D＝{(x1,y1),...,(xn,yn)}，其中xi∈Rm表示D中第i个URL的特征， yi是第i个 URL的对应类，由文本分量引起的基本事实yi和估计标签之间的损失用表示，结构分量的损失用表示，其中是指第i个样本的深度分量的预测结果；自定进度学习策略共同训练双线性因子分解机模型和时间卷积网络模型模型的参数w 并通过最小化如下等式来学习潜在的权重变量v＝[v1,....,vn]：其中参数λ控制学习率， Lw是指用逻辑损失量化的文本部分的损失； Ld表示由交叉熵损失测量的深层结构损失。 7.根据权利要求1所述的方法，其特征在于，使用skip ‑gram模型来训练URL tokens的矢量化表示。 8.一种基于特征融合的电网信息系统网络攻击检测装置，其特征在于，包括：预处理模块，对样本URL数据进行数据预处理，包括去除重复样本、数据修剪、格式化，所述数据修剪去除指定条件的符号和字符，所述格式化将数据分为两列，修剪后的URL放置在第一列中， URL的标签放置在第二列中，其中标签标记了URL是否恶意；文本特征提取模块，基于预处理后的URL数据，提取包括词汇特征和统计特征在内的文本特征，构建文本特征向量，利用双线性因子分解机学习文本特征向量之间的潜在交互关系；结构特征提取模块，基于预处理后的URL数据，执行token提取以从URL中获取tokens，通过word2vec学习URL tokens的向量表示，利用时间卷积网络学习URLtokens向量之间的距离依赖关系，所述距离依赖关系称为结构特征；特征融合模块，利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络，在整体模型训练好之后，利用训练好的模型对待检测的URL数据进行识别，基于特征融合的识别结果完成恶意URL的检测，所述自定进度学习策略通过逐渐加入学习数据来减少熵值，训练出潜在的权重参数，并通过在损失函数中引入权重变量来表示样本是否被选择。 9.一种计算机设备，其特征在于，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1 ‑7中任一项所述的基于特征融合的电网信息系统网络攻击检测方法的步骤。权　利　要　求　书 2/3 页 3 CN 115242539 A 3

专利 基于特征融合的电网信息系统网络攻击检测方法及装置

专利基于特征融合的电网信息系统网络攻击检测方法及装置