全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111681406.7 (22)申请日 2021.12.31 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 申请人 国家计算机网络与信息安全管理中 心 (72)发明人 金正平 刘冰 张承宇 秦素娟  时忆杰  (74)专利代理 机构 北京风雅颂专利代理有限公 司 11403 专利代理师 陈莉 (51)Int.Cl. G06F 16/951(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 Web指纹检测方法及相关 设备 (57)摘要 本申请提供一种Web指纹检测方法及相关设 备。 该方法包括: 利用网络爬虫从目标站点爬取 多个网页的源码, 并基于所述源码而获取静态文 件路径的关键信息; 通过由网络爬虫向目标站点 的主机服务器发送预定义的HTTP请求, 获取该主 机服务器的响应报文的头部信息; 通过将所述关 键信息与Web指纹库进行匹配, 识别出内容管理 系统(CMS)类型; 基于 所述头部信息, 利用机器学 习模型预测出Web服务器类型; 通过利用网络连 接端扫描工具扫描主机服务器的开放端口以及 所述开放端口对应的服务, 检测出主机端口指 纹。 该方法实现了对目标站点的Web组件信息进 行全面、 准确、 高效的检测。 权利要求书2页 说明书10页 附图8页 CN 114528457 A 2022.05.24 CN 114528457 A 1.一种Web指纹检测方法, 其特 征在于, 包括: 利用网络爬虫从目标站点爬取多个网页的源码, 并基于所述源码而获取静态文件路径 的关键信息; 通过由所述网络爬虫向所述目标站点的主机服务器发送预定义的HTTP请求, 获取该主 机服务器的响应报文的头 部信息; 通过将所述关键信息与Web指纹库进行匹配, 识别出所述目标站点的内容管理系统CMS 类型; 基于所述头部信息, 利用经过训练的机器学习模型预测出所述目标站点的Web服务器 类型; 通过利用网络连接端扫描工具扫描所述主机服务器的开放端口以及所述开放端口对 应的服务, 检测出 所述目标站点的主机端口指纹。 2.根据权利要求1所述的方法, 其中, 所述基于所述头部信息, 利用经过训练的机器学 习模型预测出所述目标站点的Web服 务器类型, 包括: 对所述头 部信息进行 预处理; 基于经过预处理 的所述头部信 息, 利用所述机器学习模型通过随机森林算法预测出所 述Web服务器类型。 3.根据权利要求1所述的方法, 其中, 所述通过利用网络连接端扫描工具扫描所述主机 服务器的开放端口以及所述开放端口对应的服务, 检测出所述 目标站点的主机端口指纹, 包括: 通过利用扫描工具Nmap扫描所述开放端口以及所述开放端口对应的服务, 生成探测 报 告; 解析所述探测报告, 以得到所述主机端口指纹。 4.根据权利要求1所述的方法, 其中, 所述利用网络爬虫从目标站点爬取多个网页的源 码包括: 利用所述网络 爬虫, 采用广 度优先策略从所述目标站点爬取 所述源码。 5.根据权利要求4所述的方法, 其中, 所述基于所述源码而获取静态文件路径的关键信 息包括: 从所述源码中解析 出预定标签; 使用正则表达式从所述预定标签中提取静态文件路径信息; 将所述静态文件路径信息保存为目标文本, 并对所述目标文本进行去噪处 理; 对经过去噪处 理的所述目标文本进行文本切片处 理, 以提取 出所述关键信息 。 6.根据权利要求1所述的方法, 其中, 所述通过由所述网络爬虫向所述目标站点的主机 服务器发送预定义的HT TP请求, 获取 该主机服 务器的响应报文的头 部信息, 包括: 由所述网络 爬虫向所述主机服 务器发送所述HT TP请求; 获取所述主机服 务器对所述HT TP请求的响应报文; 从所述响应报文的头部提取第一预定字段的相对位置信息和第二预定字段的内容信 息作为所述头 部信息。 7.根据权利要求6所述的方法, 其中, 所述HTTP请求包括 “GET/404pa ge.html HTTP/1.1/r/n/r/n ”;权 利 要 求 书 1/2 页 2 CN 114528457 A 2所述第一预定字段包括 “Date”字段、“Server”字段、“Content‑Type”字段、“Content‑ Length”字段、“Connection”字段和“Expires”字段; 所述第二预定 字段包括“Content‑Length”字段和“X‑Power‑By”字段。 8.根据权利要求1至7中任一项所述的方法, 还 包括: 将所述CMS类型、 所述Web服务器类型和所述主机端口指纹作为所述目标站点的Web指 纹的检测结果写入远程字典服 务Redis队列中。 9.一种Web指纹检测装置, 包括: 爬取模块, 被配置为: 利用网络爬虫从目标站点爬取多个网页的源码, 并基于所述源码 而获取静态文件路径的关键信息; 通过由所述网络爬虫向所述目标站点的主机服务器发送 预定义的HT TP请求, 获取 该主机服 务器的响应报文的头 部信息; Web指纹检测模块, 被配置为: 通过将所述关键信息与 Web指纹库进行匹配, 识别出所述 目标站点的CMS类型; 基于所述头部信息, 利用经过训练的机器学习模 型预测出所述目标站 点的Web服务器类型; 通过利用网络连接端扫描工具扫描所述主机服务器的开放端口以及 所述开放端口对应的服 务, 检测出 所述目标站点的主机端口指纹。 10.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可由所述处理器执行 的计算机程序, 其中, 所述处理器在执行所述计算机程序时实现根据权利要求1至8中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114528457 A 3

.PDF文档 专利 Web指纹检测方法及相关设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 Web指纹检测方法及相关设备 第 1 页 专利 Web指纹检测方法及相关设备 第 2 页 专利 Web指纹检测方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:27:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。