专利 一种面向海量网络攻击的快速研判方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221075910 5.X (22)申请日 2022.06.29 (71)申请人国家计算机网络与信息安全管理中心地址 100029 北京市朝阳区裕民路甲3号 (72)发明人吕志泉　王宏宇　贺铮　韩志辉　严寒冰　周昊　刘玲　严定宇　高川　秦佳伟　石桂欣　 (74)专利代理机构北京中原华和知识产权代理有限责任公司 1 1019 专利代理师饶黄裳　寿宁 (51)Int.Cl. H04L 9/40(2022.01) H04L 41/0604(2022.01) H04L 41/0631(2022.01)G06K 9/62(2022.01) G06F 16/901(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称一种面向海量网络攻击的快速研判方法 (57)摘要本发明是有关于一种面向海量网络攻击数据的研判方法、系统及介质，涉及网络安全技术、人工智能、大数据领域，其中方法包括：对海量网络攻击数据进行自动化特征抽取，根据属性特征利用算法筛选出最有价值的攻击数据交予人工研判，通过人工研判结果对数据进行标注，利用标注后的数据与剩余网络攻击数据进行相似性计算，对相似的网络攻击数据进行自动标注。不相似的数据再次进行筛选，直至全部标注完毕。此方法，通过研判人员能力的约束结合算法的泛化能力，使得有价值的网络攻击可以优先被研判，相似的事件自动被研判。在实际生产中能够在保证研判效果的同时也降低需要人工研判的网络攻击数量，整体提升研判效率。权利要求书4页说明书9页附图1页 CN 115333768 A 2022.11.11 CN 115333768 A 1.一种面向海量网络攻击的快速研判方法，其特征在于：其包括以下步骤：步骤1：通过孤立森林算法获取告警事件中最有价值的样本交于人工研判；步骤2：通过人工研判，对筛选出的数据进行标注；步骤3：对已经人工研判后的样本进聚类，自动进行研判；步骤4：将剩余数据重复1～3步，直至满足设置条件停止迭代。 2.根据权利要求1所述的一种面向海量网络攻击的快速研判方法，其特征在于：所述的步骤1包括以下步骤：步骤1.1：特征提取，将文本进行切割，拼接生成词向量；步骤1.2：数据预处理，展示部分原始数据；步骤1.3样本筛选。 3.根据权利要求1 ‑2中任意一项所述的一种面向海量网络攻击的快速研判方法，其特征在于：所述的告警事件包含着丰富的信息，攻击内容包含在请求url或者payl oad中；所述的原始数据包括多种属性，其中一部分直接用来作为入侵检测的分析项，或从数据中挖掘出一些隐藏的网络连接信息直接用来作为入侵检测的分析项，或从数据中挖掘出隐藏的网络连接信息的分析项。 4.根据权利要求3所述的一种面向海量网络攻击的快速研判方法，其特征在于：作为分析项的所述的属性包括：常规特征属性：源端口号、目的端口号、开始时间、 URL触发警报类型、数据传输方式、 POST数据内容、响应码、响应长度、响应内容、重定向；以及，特征属性：最近100个连接中与当前连接的源IP一样的个数，最近100个连接中与当前连接的目的IP相同的个数，最近100个连接中与当前连接的源IP相同且目的端口相同的个数，最近100个连接当中与当前连接的目的IP相同且源端口相同的个数，最近100个连接当中与当前连接的源IP、源端口、目的IP、目的端口相同的个数等5个连接特征。 5.根据权利要求4所述的一种面向海量网络攻击的快速研判方法，其特征在于：所述的常规特征的对应值处理方法如下： “源端口号 ”等于原始数据data中 “源端口号 ”的值，并将数据格式从原始的strin g类型转化为int类型； “目的端口号 ”等于原始数据data中 “目的端口号 ”的值，并将数据格式从原始的strin g 类型转化为int类型； “开始时间 ”忽略了原始数据data中 “开始时间 ”取值中年、月、日对时间属性的影响，截取了其中的时、分、秒作为参考，将“开始时间 ”记录为时分秒对应的秒数； “数据传输方式 ”对应为原始数据data中 “数据传输方式 ”的类型，将原始数据中 “数据传输方式 ”为“GET”的记录为0，为 “POST”的记录为1； “POST数据内容 ”对应为原始数据data中 “POPST数据内容 ”的类型，将原始数据中 “POST 数据内容 ”为“空值”的记录为0，不为“空值”的记录为1； “响应码”对原始数据data中 “响应码”属性项为“空值”的情况进行了考虑，将原始数据中“响应码”为“空值”的记录为0，不为 “空值”的记录为原始值，并将数据格式从str ing转化为int类型； “响应长度 ”等于原始数据data中 “响应长度 ”的值，并将数据格式从string转化为int权　利　要　求　书 1/4 页 2 CN 115333768 A 2类型； “响应内容 ”对应为原始数据data中 “响应内容 ”的类型，将原始数据中 “响应内容 ”为 “空值”的记录为0，不为“空值”的记录为1； “重定向”对应为原始数据data中 “重定向”的类型，将原始数据中 “重定向”为“空值”的记录为0，不为“空值”的记录为1； “url长度”等于原始数据data中 “url长度”的值，并将数据格式从string转化为int类型。 6.根据权利要求4所述的一种面向海量网络攻击的快速研判方法，其特征在于：所述的特征属性的对应值处理方法如下：对于告警事件数据集中的5个连接特征属性项，在进行获取时通过一个存储最近100条连接数据的四维数组history来完成，数组history的长度固定为100，数组中存储了最近 100条连接数据中 “源IP”、“源端口号 ”、“目的IP”、“目的端口号 ”的值，每次通过替换掉当前数据中最早存入history的数据来保证数组中数据的特性。 “最近100个连接中与当前连接的源IP相同的个数，过对数组history进行遍历得到，记录为其中与当前网络连接数据源IP 相同的连接个数； “最近100个连接当中与当前连接的目的IP相同的个数 ”通过对数组history进行遍历得到，记录为其中与当前网络连接数据 “目的IP”相同的连接个数； “最近100个连接中与当前连接的源IP相同且目的端口相同的个数 ”通过对数组 history进行遍历得到，记录为其中与当前网络连接数据 “源IP”相同且“目的端口号 ”相同的连接个数； “最近100个连接中与当前连接的目的IP相同且源端口相同的个数 ”通过对数组 history进行遍历得到，记录为其中与当前网络连接数据 “目的IP”相同且“源端口号 ”相同的连接个数； “最近100个连接当中与当前连接的源IP、源端口、目的IP、目的端口相同的个数 ”通过对数组history进行遍历得到，记录为其中与当前网络连接数据 “源IP”、“目的IP”、“源端口号”、“目的端口号 ”相同的连接个数；如果原始数据中事件名称包含了某一种攻击小类型的敏感关键词，记录为对应类型的代表数字。其中用1代表 “SQL联合查询 ”、 2代表“远程代码执行 ”、 3代表“远程命令执行 ”、 4代表“tomcat session操纵漏洞 ”、 5代表“SQL方式注入 ”、 6代表“SQL注入漏洞 ”、 7代表“通过 HTTP请求程序特征 ”、 8代表“敏感文件读取 ”、 9代表“SQL注入测试 ”、 10代表“SQL注入攻击 ”、 11代表“XSS特征攻击 ”、 12代表“远程代码执行漏洞 ”、 13代表“针对MySQL恶意利用特征 ”、 14 代表“基于数据库的SQL攻击 ”、 15代表“getshell漏洞 ”、 16代表“非法使用路径跳转 ”、 17代表“web弱口令登录尝试 ”、 18代表“拖库攻击 ”；如果原始数据中事件名称不包含任何一个攻击小类型的敏感关键词，则认为该事件未触发攻击类型警报，将该事件记录为正常数据对应的数字 0。 7.根据权利要求1所述的一种面向海量网络攻击的快速研判方法，其特征在于：所述的步骤1.3的样板筛选包括：构建孤立树，首先根据数据集输入的特征，对所有数据特征信息进行均衡建模，从样本数据集中随机选取属性特征和分割值，依据特征和分割值对每个数据对象进行切分，直到孤立树构建完成；将孤立树的数量设置为100，孤立树的深度为8，分权　利　要　求　书 2/4 页 3 CN 115333768 A 3

专利 一种面向海量网络攻击的快速研判方法

专利一种面向海量网络攻击的快速研判方法