专利 一种网络空间语言描述与分析方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211118012.5 (22)申请日 2022.09.14 (71)申请人中国电子科技集团公司第十五研究所地址 100083 北京市海淀区北四环中路21 1 号申请人北京邮电大学 (72)发明人任传伦　俞赛赛　王小娟　刘晓影　张先国　贾佳　乌吉斯古愣　程洋　谭震　刘文瀚　孟祥頔　 (74)专利代理机构北京丰浩知识产权代理事务所(普通合伙) 11781 专利代理师李奉瑾 (51)Int.Cl. G06F 16/906(2019.01)G06F 16/901(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04L 9/40(2022.01) H04L 47/2441(2022.01) H04L 41/14(2022.01) H04L 41/16(2022.01) (54)发明名称一种网络空间语言描述与分析方法及装置 (57)摘要本发明公开了一种网络空间语言描述与分析方法及装置。所述方法包括：将原始流量数据处理为网络流和字节数据，将其构建为异构图，提取异构图的邻接矩阵、度矩阵以及特征矩阵，经卷积码模型处理后，得到全局嵌入数据，利用编码器对全局嵌入数据进行编码，得到网络流量数据的特征信息，并基于此进行分类，得到网络流分类结果信息。本发明可用于网络空间作战场景中，解决由于多变场景带来的方法适用性差、自动化程度低的问题。权利要求书3页说明书19页附图3页 CN 115455258 A 2022.12.09 CN 115455258 A 1.一种网络空间语言描述与分析方法，其特征在于，包括：对原始网络流量数据预处理，得到网络流集和字节数据集；基于所述网络流集、所述字节数据集，构建异构图；利用预设的图卷积模型对所述异构图进行训练学习，得到全局嵌入数据；利用预设的编码器，对所述全局嵌入数据进行编码处理，得到网络流量数据的特征信息；利用预设的分类器对所述网络流量数据的特征信息进行分类处理，得到网络流分类结果。 2.根据权利要求1所述的网络空间语言描述与分析方法，其特征在于，所述对原始网络流量数据预处理，得到网络流集和字节数据集，包括：初始化网络流集为空集；初始化字节数据集为空集；删除所述原始网络流量数据中重复和空白的数据流，得到第一流量数据；基于五元组，将所述第一流量数据切分为离散数据流，得到离散数据流集；所述五元组为源IP地址、源端口、目的IP地址、目的端口和传输层协议；删除所述离散数据流集中所有离散数据流包含的MAC地址、 IP地址，得到有效离散数据流集；判断所述有效离散数据流集中任一有效离散数据流包含的字节数是否大于等于500，得到第一判断结果；当第一判断结果为是时，从所述任一有效离散数据流中截取其前500个字节数据，将截取后的数据流作为一个网络流加入到所述网络流集；将所述前500个字节数据作为500个离散字节数据加入到所述字节数据集；将所述任一有效离散数据流从所述有效离散数据流集中删除；当第一判断结果为否时，将所述任一有效离散数据流中的字节数据作为离散字节数据加入到所述字节数据集；使用预设填充字节将所述任一有效离散数据流填充至500个字节，将填充后的数据流加入到所述网络流集；将所述任一有效离散数据流从所述有效离散数据流集中删除；判断所述有效离散数据流集是否为空集，得到第二判断结果；如果第二判断结果为否，触发执行所述判断所述有效离散数据流集中任一有效离散数据流包含的字节数是否大于等于 500，得到第一判断结果。 3.根据权利要求1所述的网络空间语言描述与分析方法，其特征在于，所述基于所述网络流集、所述字节数据集，构建异构图，包括：以所述网络流集中所有网络流、字节数据集中所有字节数据为节点，节点之间的关系作为边，构建由所述节点和所述边组成的拓扑结构，得到异构图；所述异构图的边包含流‑字节边、字节 ‑字节边；所述流‑字节边表征网络流中出现该字节数据时的边；所述流 ‑字节边权重，采用TF ‑ IDF模型计算；所述字节 ‑字节边表征网络流中的该两个字节数据共同出现时的边；所述字节 ‑字节边权重，采用PMI模型计算。 4.根据权利要求1所述的网络空间语言描述与分析方法，其特征在于，所述利用预设的权　利　要　求　书 1/3 页 2 CN 115455258 A 2图卷积模型对所述异构图中的特征进行学习，得到全局嵌入数据，包括：根据所述异构图，构建邻接矩阵A和度矩阵D；所述邻接矩阵A描述所述异构图中流和字节数据之间的边连接关系，连接则记为1，反之则为0；所述度矩阵D描述所述异构图中各个节点的边连接数量；构建维度为N ×M的特征矩阵X，将所述特征矩阵X随机初始化；所述N表征所有节点的数量，所述M表征节点特征向量的维度；将所述邻接矩阵A、度矩阵D、特征矩阵X输入预设的图卷积模型进行学习训练，得到全局嵌入数据；所述预设的图卷积模型包括一个两层的图卷积模型和一个全连接层。 5.根据权利要求1所述的网络空间语言描述与分析方法，其特征在于，所述预设的编码器采用transformer 中的编码结构，由L层编码器模块顺序连接组成，每个编码器模块由一个多头自注意力机制层和一个前馈全连接层顺序连接构成；所述 L为大于2的自然数；所述利用预设的编码器，对所述全局嵌入数据进行编码处理，得到网络流量数据的特征信息，包括：创建三个随机初始化的权重矩阵W1， W2， W3；构建位置嵌入数据；所述位置嵌入数据表征入字节数据在网络流中的位置；构建学习嵌入数据；所述学习嵌入数据表征网络流量的局部信息；将所述全局嵌入数据、位置嵌入数据、学习嵌入数据分别与所述权重矩阵W1， W2， W3相乘进行线性变换，得到查询向量 Q、键向量K、值向量V；将所述查询向量Q、键向量K、值向量V分别乘以预设的h个参数矩阵组，得到h组矩阵序列；所述h表征多头自注意力的头数；利用缩放点积注意力函数，计算所述h组矩阵序列的注意力，得到 h个注意力向量；将所述h个注意力向量进行拼接，得到多头自注意力矩阵；将所述多头自注意力矩阵输入所述前馈全连接层进行处理，得到中间网络流量数据的特征信息；将所述中间网络流量数据的特征信息输入到所述L层编码器模块中下一层编码器模块进行计算，直至最后一层编码器模块完成处理，得到网络流量数据的特征信息。 6.根据权利要求5所述的网络空间语言描述与分析方法，其特征在于，所述构建位置嵌入数据，包括：根据预设的位置嵌入数据构建模型计算得到位置嵌入数据；所述置嵌入数据构建模型为：式中， pos表示的是单字节数据在一条流序列中的位置， dmodel表示嵌入数据的维度大小， 2i， 2i+1∈[0,dmodel‑1]表示为要生成的位置嵌入数据向量中的某个维度。 7.根据权利要求5所述的网络空间语言描述与分析方法，其特征在于，所述构建学习嵌入数据，包括：对词汇表中单字节数据的索引进行编码，得到单字节数据编码；所述词汇表由所述网权　利　要　求　书 2/3 页 3 CN 115455258 A 3

专利 一种网络空间语言描述与分析方法及装置

专利一种网络空间语言描述与分析方法及装置