(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211118012.5
(22)申请日 2022.09.14
(71)申请人 中国电子科技 集团公司第十五研究
所
地址 100083 北京市海淀区北四环中路21 1
号
申请人 北京邮电大 学
(72)发明人 任传伦 俞赛赛 王小娟 刘晓影
张先国 贾佳 乌吉斯古愣 程洋
谭震 刘文瀚 孟祥頔
(74)专利代理 机构 北京丰浩知识产权代理事务
所(普通合伙) 11781
专利代理师 李奉瑾
(51)Int.Cl.
G06F 16/906(2019.01)G06F 16/901(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04L 9/40(2022.01)
H04L 47/2441(2022.01)
H04L 41/14(2022.01)
H04L 41/16(2022.01)
(54)发明名称
一种网络空间语言描述与分析方法及装置
(57)摘要
本发明公开了一种网络空间语言描述与分
析方法及装置。 所述方法包括: 将原始流量数据
处理为网络流和字节数据, 将其构建为异构图,
提取异构图的邻接矩阵、 度矩阵以及特征矩阵,
经卷积码模型处理后, 得到全局嵌入数据, 利用
编码器对全局嵌入数据进行编码, 得到网络流量
数据的特征信息, 并基于此进行分类, 得到网络
流分类结果信息。 本发明可用于网络空间作战场
景中, 解决由于多变场景带来的方法适用性差、
自动化程度低的问题。
权利要求书3页 说明书19页 附图3页
CN 115455258 A
2022.12.09
CN 115455258 A
1.一种网络空间语言描述与分析 方法, 其特 征在于, 包括:
对原始网络流 量数据预处 理, 得到网络流 集和字节数据集;
基于所述网络流 集、 所述字节数据集, 构建异构图;
利用预设的图卷积模型对所述异构图进行训练学习, 得到全局嵌入数据;
利用预设的编码器, 对所述全局嵌入数据进行编码处理, 得到网络流量数据的特征信
息;
利用预设的分类器对所述网络流量数据的特征信 息进行分类处理, 得到网络流分类结
果。
2.根据权利要求1所述的网络空间语言描述与分析方法, 其特征在于, 所述对原始网络
流量数据预处 理, 得到网络流 集和字节数据集, 包括:
初始化网络流 集为空集; 初始化字节数据集 为空集;
删除所述原 始网络流 量数据中重复和空白的数据流, 得到第一 流量数据;
基于五元组, 将所述第一流量数据切分为离散数据流, 得到离散数据流集; 所述五元组
为源IP地址、 源端口、 目的IP地址、 目的端口和传输层协议;
删除所述离散数据流集中所有离散数据流包含的MAC地址、 IP地址, 得到有效离散数据
流集;
判断所述有效离散数据流集中任一有效离散数据流包含的字节数是否大于等于500,
得到第一判断结果;
当第一判断结果为是时, 从所述任一有效离散数据流中截取其前500个字节数据, 将截
取后的数据流作为一个网络流加入到所述网络流集; 将所述前500个字节数据作为500个离
散字节数据加入到所述字节数据集; 将所述任一有效离散数据流从所述有效离散数据流集
中删除;
当第一判断结果为否时, 将所述任一有 效离散数据流中的字节数据作为离散字节数据
加入到所述字节数据集; 使用预设填充字节将所述任一有效离散数据流填充至500个字节,
将填充后的数据流加入到所述网络流集; 将所述任一有效离散数据流从所述有效离散数据
流集中删除;
判断所述有效离 散数据流 集是否为空集, 得到第二判断结果;
如果第二判断结果为否, 触发执行所述判断所述有 效离散数据流集中任一有效离散数
据流包含的字节数 是否大于等于 500, 得到第一判断结果。
3.根据权利要求1所述的网络空间语言描述与分析方法, 其特征在于, 所述基于所述网
络流集、 所述字节数据集, 构建异构图, 包括:
以所述网络流集中所有网络流、 字节数据集中所有字节数据为节点, 节点之间的关系
作为边, 构建由所述节点和所述 边组成的拓扑 结构, 得到异构图;
所述异构图的边包 含流‑字节边、 字节 ‑字节边;
所述流‑字节边表征网络流中出现该字节数据时的边; 所述流 ‑字节边权重, 采用TF ‑
IDF模型计算;
所述字节 ‑字节边表征网络流中的该两个字节数据共同出现时的边; 所述字节 ‑字节边
权重, 采用PMI模型计算。
4.根据权利要求1所述的网络空间语言描述与分析方法, 其特征在于, 所述利用预设的权 利 要 求 书 1/3 页
2
CN 115455258 A
2图卷积模型对所述异构图中的特 征进行学习, 得到全局嵌入数据, 包括:
根据所述异构图, 构建邻接矩阵A和度矩阵D; 所述邻接矩阵A描述所述异构图中流和字
节数据之间的边连接关系, 连接则记为1, 反 之则为0;
所述度矩阵D描述所述异构图中各个节点的边连接数量;
构建维度为N ×M的特征矩阵X, 将所述特征矩阵X随机初始化; 所述N表征所有节点的数
量, 所述M表征节点特 征向量的维度;
将所述邻接矩阵A、 度矩阵D、 特征矩阵X输入预设的图卷积模型进行学习训练, 得到全
局嵌入数据;
所述预设的图卷积模型包括 一个两层的图卷积模型和一个全连接层。
5.根据权利要求1所述的网络空间语言描述与分析方法, 其特征在于, 所述预设的编码
器采用transformer 中的编码结构, 由L层编码器模块顺序连接组成, 每个编码器模块由一
个多头自注意力机制层和一个前馈全连接层顺序连接构成; 所述 L为大于2的自然数;
所述利用预设的编码器, 对所述全局嵌入数据进行编码处理, 得到网络流量数据的特
征信息, 包括:
创建三个随机初始化的权 重矩阵W1, W2, W3;
构建位置嵌入数据; 所述 位置嵌入数据表征入字节数据在网络流中的位置;
构建学习嵌入数据; 所述学习嵌入数据表征网络流 量的局部信息;
将所述全局嵌入数据、 位置嵌入数据、 学习嵌入数据分别与所述权重矩阵W1, W2, W3相乘
进行线性变换, 得到查询向量 Q、 键向量K、 值向量V;
将所述查询向量Q、 键向量K、 值向量V分别乘以预设的h个参数矩阵组, 得到h组矩阵序
列; 所述h表征多头自注意力的头数;
利用缩放 点积注意力函数, 计算所述h组矩阵序列的注意力, 得到 h个注意力向量;
将所述h个注意力向量进行拼接, 得到多头自注意力矩阵;
将所述多头自注意力矩阵输入所述前馈全连接层进行处理, 得到 中间网络流量数据的
特征信息;
将所述中间网络流量数据的特征信 息输入到所述L层编码器模块中下一层编码器模块
进行计算, 直至最后一层编码器模块完成处 理, 得到网络流 量数据的特 征信息。
6.根据权利要求5所述的网络空间语言描述与分析方法, 其特征在于, 所述构建位置嵌
入数据, 包括:
根据预设的位置嵌入数据构建模型计算得到位置嵌入数据;
所述置嵌入数据构建模型为:
式中, pos表示的是单字节数据在一条流序列中的位置, dmodel表示嵌入数据的维度大
小, 2i, 2i+1∈[0,dmodel‑1]表示为要生成的位置嵌入数据向量中的某个维度。
7.根据权利要求5所述的网络空间语言描述与分析方法, 其特征在于, 所述构建学习嵌
入数据, 包括:
对词汇表中单字节数据的索引进行编码, 得到单字节数据编码; 所述词汇表由所述网权 利 要 求 书 2/3 页
3
CN 115455258 A
3
专利 一种网络空间语言描述与分析方法及装置
安全报告 >
其他 >
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:41:16上传分享