全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211322297.4 (22)申请日 2022.10.27 (71)申请人 浙江鹏信 信息科技股份有限公司 地址 311100 浙江省杭州市余杭区仓前街 道向往街10 08号14幢9-10层 申请人 中国移动通信集团云南有限公司 (72)发明人 陈晓莉 和建文 冯国栋 赵祥廷  张晶晶 章亮  (74)专利代理 机构 浙江永鼎律师事务所 3 3233 专利代理师 王日精 (51)Int.Cl. H04L 9/40(2022.01) H04L 43/12(2022.01) G06F 16/951(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) (54)发明名称 网页恶意篡改识别方法、 系统及可读存储介 质 (57)摘要 本发明涉及网页恶意篡改识别方法、 系统及 可读存储介质, 识别方法包括: S1、 爬取待测网页 的图片数据和文本数据; S2、 判断待测网页的数 据信息与预设网页的数据信息是否相同; 若否, 则转至步骤S3; S3、 利用VGG卷积神经网络的全连 接层的输 出作为SVM分类器的输入构成的第一分 类模型对待测网页的图片数据进行分类, 得到第 一分类标签及其对应的置信度; 利用BERT神经网 络拼接双向LSTM神经网络并在输出前添加注意 力构成的第二分类模型对待测网页的文本数据 进行分类, 得到第二分类标签及其对应的置信 度; S4、 判断各置信度是否超出置信度阈值; 若 是, 则输出网页存在恶意篡改告警。 本发明有效 提升了网页恶意篡改识别的精度和效率。 权利要求书2页 说明书8页 附图4页 CN 115396237 A 2022.11.25 CN 115396237 A 1.网页恶意篡改识别方法, 其特 征在于, 包括以下步骤: S1、 爬取待测网页的数据信息; 其中, 数据信息包括图片数据和文本数据; S2、 判断待测网页的数据信息与预设网页的数据信息是否相同; 若是, 则返回至步骤 S1; 若否, 则转至步骤S3; S3、 利用VGG卷积神经网络的全连接层的输出作 为SVM分类器的输入构成的第一分类模 型对待测网页的图片数据进行分类, 得到第一分类标签及其对应的第一置信度; 利用BERT神经网络拼接双向LSTM神经网络并在输出前添加注意力构成的第二分类模 型对待测网页的文本数据进行分类, 得到第二分类标签及其对应的第二置信度; S4、 判断第一置信度是否超出第一置信度阈值; 若是, 则转至步骤S5; 若否, 则返回至步 骤S1; 判断第二置信度是否超出第二置信度阈值; 若是, 则转至步骤S5; 若否, 则返回至步骤 S1; S5、 输出网页存在恶意篡改告警。 2.根据权利要求1所述的网页恶意篡改识别方法, 其特征在于, 所述步骤S1中, 待测网 页的数据信息采用定时爬取的方式爬取。 3.根据权利要求1所述的网页恶意篡改识别方法, 其特征在于, 所述步骤S2中, 若判断 结果为否, 还输出网页篡改预警。 4.根据权利 要求1所述的网页恶意篡改识别方法, 其特征在于, 所述步骤S3中, VGG卷积 神经网络为VG G16。 5.根据权利要求4所述的网页恶意篡改识别方法, 其特征在于, 所述第一分类模型的 VGG16网络结构包括依次连接的六个部分: 第一部分和第二部分均由两个卷积层和一个 maxpool池化层构成, 其中, 每个卷积层的输出后都有一个ReLu激活函数; 第三部分至第五 部分均由四个卷积层和一个 maxpool池化层构成; 第六部 分为展开后的全连接层, 由三个全 连接层组成; 第六部分的输出连接SVM分类器, 以对图片进行分类, 输出第 一分类标签及其对应的第 一置信度。 6.根据权利要求1所述的网页恶意篡改识别方法, 其特征在于, 所述第 二分类模型包括 依次连接的三个部分: 第一部分为BERT神经网络, 包括embedding层、 双向的多个 Transformer编码器以及输出部分, 在finetune微调训练后去掉输出部分; 第二部分为双向 LSTM神经网络; 第三部分为注意力, 最后输出第二分类标签及其对应的第二置信度; 其中, 第二分类模型的训练过程中, 将finetune微调训练后的BERT神经网络 的权重冻 结。 7.根据权利要求1所述的网页恶意篡改识别方法, 其特征在于, 所述步骤S5之后, 还包 括以下步骤: S6、 利用D PI对待测网页进行URL封堵。 8.根据权利要求1 ‑7任一项所述的网页恶意篡改识别方法, 其特 征在于, 还 包括: 设置网页维护时间段, 在网页维护时间段内停止执 行所述步骤S2至步骤S5 。 9.网页恶意篡改识别系统, 应用如权利要求1 ‑8任一项所述的网页恶意篡改识别方法, 其特征在于, 所述网页恶意篡改识别系统包括:权 利 要 求 书 1/2 页 2 CN 115396237 A 2爬取模块, 用于 爬取待测网页的数据信息; 其中, 数据信息包括图片数据和文本数据; 判断模块, 用于判断待测网页的数据信息与预设网页的数据信息是否相同; 第一分类模型, 用于对待测网页的图片数据进行分类, 得到第一分类标签及其对应的 第一置信度; 第二分类模型, 用于对待测网页的文本数据进行分类, 得到第二分类标签及其对应的 第二置信度; 所述判断模块还用于判断第一置信度是否超出第一置信度阈值以及判断第二置信度 是否超出第二置信度阈值; 输出模块, 用于 输出网页存在恶意篡改告警; 执行模块, 用于根据判断模块的判断结构执 行相应的后续操作。 10.一种可读存储介质, 所述可读存储介质中存储有指令, 其特征在于, 当指令在计算 机上运行时, 使得计算机执 行如权利要求1 ‑8任一项所述的网页恶意篡改识别方法。权 利 要 求 书 2/2 页 3 CN 115396237 A 3

PDF文档 专利 网页恶意篡改识别方法、系统及可读存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网页恶意篡改识别方法、系统及可读存储介质 第 1 页 专利 网页恶意篡改识别方法、系统及可读存储介质 第 2 页 专利 网页恶意篡改识别方法、系统及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。