(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111457407.3
(22)申请日 2021.12.02
(65)同一申请的已公布的文献号
申请公布号 CN 113852645 A
(43)申请公布日 2021.12.28
(73)专利权人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
(72)发明人 杨树杰 许长桥 马腾超 关建峰
丁中医 刘朝阳
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
代理人 任少瑞
(51)Int.Cl.
H04L 9/40(2022.01)
H04L 67/568(2022.01)
H04L 61/4511(2022.01)H04L 41/14(2022.01)
G06K 9/62(2022.01)
(56)对比文件
CN 108234 472 A,2018.0 6.29
CN 106716404 A,2017.0 5.24
CN 101682626 A,2010.0 3.24
CN 107332811 A,2017.1 1.07
CN 10968 8110 A,2019.04.26
CN 110266647 A,2019.09.20
CN 10828908 8 A,2018.07.17
US 2009241183 A1,20 09.09.24
US 201510 5269 A1,2015.04.16
US 2016335223 A1,2016.1 1.17
US 20162 94645 A1,2016.10.0 6
US 20162 94645 A1,2016.10.0 6
审查员 郭珩
(54)发明名称
抗客户端DNS缓存中毒攻击的方法、 装置及
电子设备
(57)摘要
本发明公开了抗客户端DNS缓存中毒攻击的
方法、 装置及电子设备, 包括: 获取来自客户端的
请求以及DNS代理服务器集合; 判断目标域名是
否命中本地缓存中的域名; 若未命中, 获取当前
环境状态; 将当前环境状态输入至训练好的选择
策略模型, 得到在DNS代理服务器集合中进行选
择的动作描述信息; 根据动作描述信息选择对应
的DNS代理服务器, 得到目标域名对应的目标IP。
本发明通过选择策略模型解决了有 限理性条件
下攻击收益函数的不确定性问题, 根据当前的攻
防博弈中DNS代理服务器的状态, 自适应的选择
DNS代理服务器, 提高网络服务对DNS缓存中毒 攻
击防御的有效性与秒级处 理能力。
权利要求书3页 说明书12页 附图3页
CN 113852645 B
2022.03.29
CN 113852645 B
1.一种抗 客户端DNS缓存中毒攻击的方法, 其特 征在于, 包括:
获取来自客户端的请求以及DNS代理服 务器集合; 所述请求包 含目标域名;
判断所述目标域名是否命中本地缓存中的域名;
若未命中, 获取当前环境状态; 所述环境状态包含所述DNS代理服务器集合中每个DNS
代理服务器的状态信息; 所述状态信息包含被客户端选择 的次数、 被攻击者选择 的次数以
及与客户端之间的往返时延;
将所述当前环境状态输入至训练好的选择策略模型, 得到在所述DNS代理服务器集合
中进行选择的动作描述信息;
根据所述动作描述信息 选择对应的DNS代理服 务器, 得到所述目标域名对应的目标IP;
其中, 所述训练好的选择 策略模型为利用不同环境状态进行训练后得到;
所述选择策略模型包含价值网络、 策略网络、 演员目标网络以及评论家目标网络, 在将
所述当前环境状态输入至训练好的选择策略模型, 得到在所述DNS代理服务器集合中进行
选择的动作描述信息之前, 还 包括:
获取预设数量的训练样本集; 每组训练样本包含第 一环境状态、 动作描述信息、 第二环
境状态、 动作奖励; 所述动作描述信息为所述策略网络在输入 所述第一环境状态后得到的;
所述第一环境状态为执行所述动作描述信息对应的动作前的环境状态; 所述第二环境状态
为执行所述动作描述信息对应的动作后的环境状态; 所述动作奖励为执行所述动作描述信
息对应的动作的奖励值;
将所述第一环境状态、 所述动作描述信息 输入到所述 价值网络中得到第一 函数值;
将所述第二环境状态输入到所述演员目标网络中得到下一个动作描述信息;
将所述第二环境状态、 所述下一个动作描述信 息输入到所述评论家目标网络中得到第
二函数值;
根据所述第一 函数值、 所述第二 函数值确定优势函数;
根据所述优势函数确定梯度;
根据所述梯度更新所述选择 策略模型的参数, 得到训练好的选择 策略模型;
所述获取 预设数量的训练样本集, 包括:
建立博弈模型;
根据所述博 弈模型确定第一环境状态以及动作描述信息;
根据所述动作描述信息确定动作奖励;
根据所述第一环境状态、 所述动作描述信息确定第二环境状态;
在所述根据所述动作描述信息选择对应的DNS代理服务器, 得到所述目标域名对应的
目标IP之前, 还 包括:
根据所述动作描述信息确定 选择的DNS代理服 务器;
采用自我审查组件 对所述DNS代理服 务器进行审查。
2.根据权利要求1所述的抗客户端DNS缓存中毒攻击的方法, 其特征在于, 所述根据所
述动作描述信息确定动作奖励, 包括:
获取所述动作描述信息对应的传输时延;
根据所述传输时延确定所述动作描述信息对应的动作奖励。
3.根据权利要求1所述的抗客户端DNS缓存中毒攻击的方法, 其特征在于, 在所述得到权 利 要 求 书 1/3 页
2
CN 113852645 B
2训练好的选择 策略模型之前, 还 包括:
采用信赖域策略优化对所述选择 策略模型参数 更新的过程进行优化。
4.根据权利要求1所述的抗客户端DNS缓存中毒攻击的方法, 其特征在于, 所述采用自
我审查组件 对所述DNS代理服 务器进行审查, 包括:
获取转变集 合;
采用自我审查组件判断所述DNS代理服 务器是否在所述 转变集合中;
若存在且所述DNS代理服务器的瞬时状态 由正向激励转变为负向反馈, 则采用正态分
布式采样组件重新选择动作描述信息 。
5.一种抗 客户端DNS缓存中毒攻击的装置, 其特 征在于, 包括:
获取模块, 用于获取来自客户端的请求以及DNS代 理服务器集合; 所述请求包含目标域
名;
处理模块, 用于判断所述目标域名是否命中本地缓存中的域名; 若未命中, 获取当前环
境状态; 所述环境状态包含所述DNS代理服务器集合中每个DNS代理服务器的状态信息; 所
述状态信息包含被客户端选择的次数、 被攻击者选择的次数以及与客户端之间的往返时
延; 将所述当前环境状态输入至训练好的选择策略模型, 得到在所述DNS代理服务器集合中
进行选择的动作描述信息; 根据所述动作描述信息选择对应的DNS代理服务器, 得到所述目
标域名对应的目标IP; 其中, 所述训练好的选择策略模型为利用不同环境状态进行训练后
得到; 所述选择 策略模型包 含价值网络、 策略网络、 演员目标网络以及评论家目标网络;
所述处理模块, 还用于在将所述当前环境状态输入至训练好的选择策略模型, 得到在
所述DNS代理服务器集合中进 行选择的动作描述信息之前, 获取预设数量的训练样 本集; 每
组训练样本包含第一环境状态、 动作描述信息、 第二环境状态、 动作奖励; 所述动作描述信
息为所述策略网络在输入所述第一环境状态后得到的; 所述第一环境状态为执行所述动作
描述信息对应的动作前的环境状态; 所述第二环 境状态为执行所述动作描述信息对应的动
作后的环境状态; 所述动作奖励为执行所述动作描述信息对应的动作的奖励值; 将所述第
一环境状态、 所述动作描述信息输入到所述价值网络中得到第一函数值; 将所述第二环境
状态输入到所述演员目标网络中得到下一个动作描述信息; 将所述第二环境状态、 所述下
一个动作描述信息输入到所述评论家目标网络中得到第二函数值; 根据所述第一函数值、
所述第二函数值确定优势函数; 根据所述优势函数确定梯度; 根据所述梯度更新所述选择
策略模型的参数, 得到训练好的选择 策略模型;
所述处理模块, 具体用于: 建立博弈模型; 根据 所述博弈模型确定第 一环境状态以及动
作描述信息; 根据所述动作描述信息确定动作奖励; 根据所述第一环境状态、 所述动作描述
信息确定第二环境状态;
所述处理模块, 还用于在所述根据所述动作描述信息选择对应的DNS代 理服务器, 得到
所述目标域名对应的目标IP之前, 根据所述动作描述信息确定选择的DNS代理服务器; 采用
自我审查组件 对所述DNS代理服 务器进行审查。
6.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至4任一项所
述方法的步骤。
7.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机权 利 要 求 书 2/3 页
3
CN 113852645 B
3
专利 抗客户端DNS缓存中毒攻击的方法、装置及电子设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 22:40:35上传分享