专利抗客户端DNS缓存中毒攻击的方法、装置及电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111457407.3 (22)申请日 2021.12.02 (65)同一申请的已公布的文献号申请公布号 CN 113852645 A (43)申请公布日 2021.12.28 (73)专利权人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人杨树杰　许长桥　马腾超　关建峰　丁中医　刘朝阳　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 代理人任少瑞 (51)Int.Cl. H04L 9/40(2022.01) H04L 67/568(2022.01) H04L 61/4511(2022.01)H04L 41/14(2022.01) G06K 9/62(2022.01) (56)对比文件 CN 108234 472 A,2018.0 6.29 CN 106716404 A,2017.0 5.24 CN 101682626 A,2010.0 3.24 CN 107332811 A,2017.1 1.07 CN 10968 8110 A,2019.04.26 CN 110266647 A,2019.09.20 CN 10828908 8 A,2018.07.17 US 2009241183 A1,20 09.09.24 US 201510 5269 A1,2015.04.16 US 2016335223 A1,2016.1 1.17 US 20162 94645 A1,2016.10.0 6 US 20162 94645 A1,2016.10.0 6 审查员郭珩 (54)发明名称抗客户端DNS缓存中毒攻击的方法、装置及电子设备 (57)摘要本发明公开了抗客户端DNS缓存中毒攻击的方法、装置及电子设备，包括：获取来自客户端的请求以及DNS代理服务器集合；判断目标域名是否命中本地缓存中的域名；若未命中，获取当前环境状态；将当前环境状态输入至训练好的选择策略模型，得到在DNS代理服务器集合中进行选择的动作描述信息；根据动作描述信息选择对应的DNS代理服务器，得到目标域名对应的目标IP。本发明通过选择策略模型解决了有限理性条件下攻击收益函数的不确定性问题，根据当前的攻防博弈中DNS代理服务器的状态，自适应的选择 DNS代理服务器，提高网络服务对DNS缓存中毒攻击防御的有效性与秒级处理能力。权利要求书3页说明书12页附图3页 CN 113852645 B 2022.03.29 CN 113852645 B 1.一种抗客户端DNS缓存中毒攻击的方法，其特征在于，包括：获取来自客户端的请求以及DNS代理服务器集合；所述请求包含目标域名；判断所述目标域名是否命中本地缓存中的域名；若未命中，获取当前环境状态；所述环境状态包含所述DNS代理服务器集合中每个DNS 代理服务器的状态信息；所述状态信息包含被客户端选择的次数、被攻击者选择的次数以及与客户端之间的往返时延；将所述当前环境状态输入至训练好的选择策略模型，得到在所述DNS代理服务器集合中进行选择的动作描述信息；根据所述动作描述信息选择对应的DNS代理服务器，得到所述目标域名对应的目标IP；其中，所述训练好的选择策略模型为利用不同环境状态进行训练后得到；所述选择策略模型包含价值网络、策略网络、演员目标网络以及评论家目标网络，在将所述当前环境状态输入至训练好的选择策略模型，得到在所述DNS代理服务器集合中进行选择的动作描述信息之前，还包括：获取预设数量的训练样本集；每组训练样本包含第一环境状态、动作描述信息、第二环境状态、动作奖励；所述动作描述信息为所述策略网络在输入所述第一环境状态后得到的；所述第一环境状态为执行所述动作描述信息对应的动作前的环境状态；所述第二环境状态为执行所述动作描述信息对应的动作后的环境状态；所述动作奖励为执行所述动作描述信息对应的动作的奖励值；将所述第一环境状态、所述动作描述信息输入到所述价值网络中得到第一函数值；将所述第二环境状态输入到所述演员目标网络中得到下一个动作描述信息；将所述第二环境状态、所述下一个动作描述信息输入到所述评论家目标网络中得到第二函数值；根据所述第一函数值、所述第二函数值确定优势函数；根据所述优势函数确定梯度；根据所述梯度更新所述选择策略模型的参数，得到训练好的选择策略模型；所述获取预设数量的训练样本集，包括：建立博弈模型；根据所述博弈模型确定第一环境状态以及动作描述信息；根据所述动作描述信息确定动作奖励；根据所述第一环境状态、所述动作描述信息确定第二环境状态；在所述根据所述动作描述信息选择对应的DNS代理服务器，得到所述目标域名对应的目标IP之前，还包括：根据所述动作描述信息确定选择的DNS代理服务器；采用自我审查组件对所述DNS代理服务器进行审查。 2.根据权利要求1所述的抗客户端DNS缓存中毒攻击的方法，其特征在于，所述根据所述动作描述信息确定动作奖励，包括：获取所述动作描述信息对应的传输时延；根据所述传输时延确定所述动作描述信息对应的动作奖励。 3.根据权利要求1所述的抗客户端DNS缓存中毒攻击的方法，其特征在于，在所述得到权　利　要　求　书 1/3 页 2 CN 113852645 B 2训练好的选择策略模型之前，还包括：采用信赖域策略优化对所述选择策略模型参数更新的过程进行优化。 4.根据权利要求1所述的抗客户端DNS缓存中毒攻击的方法，其特征在于，所述采用自我审查组件对所述DNS代理服务器进行审查，包括：获取转变集合；采用自我审查组件判断所述DNS代理服务器是否在所述转变集合中；若存在且所述DNS代理服务器的瞬时状态由正向激励转变为负向反馈，则采用正态分布式采样组件重新选择动作描述信息。 5.一种抗客户端DNS缓存中毒攻击的装置，其特征在于，包括：获取模块，用于获取来自客户端的请求以及DNS代理服务器集合；所述请求包含目标域名；处理模块，用于判断所述目标域名是否命中本地缓存中的域名；若未命中，获取当前环境状态；所述环境状态包含所述DNS代理服务器集合中每个DNS代理服务器的状态信息；所述状态信息包含被客户端选择的次数、被攻击者选择的次数以及与客户端之间的往返时延；将所述当前环境状态输入至训练好的选择策略模型，得到在所述DNS代理服务器集合中进行选择的动作描述信息；根据所述动作描述信息选择对应的DNS代理服务器，得到所述目标域名对应的目标IP；其中，所述训练好的选择策略模型为利用不同环境状态进行训练后得到；所述选择策略模型包含价值网络、策略网络、演员目标网络以及评论家目标网络；所述处理模块，还用于在将所述当前环境状态输入至训练好的选择策略模型，得到在所述DNS代理服务器集合中进行选择的动作描述信息之前，获取预设数量的训练样本集；每组训练样本包含第一环境状态、动作描述信息、第二环境状态、动作奖励；所述动作描述信息为所述策略网络在输入所述第一环境状态后得到的；所述第一环境状态为执行所述动作描述信息对应的动作前的环境状态；所述第二环境状态为执行所述动作描述信息对应的动作后的环境状态；所述动作奖励为执行所述动作描述信息对应的动作的奖励值；将所述第一环境状态、所述动作描述信息输入到所述价值网络中得到第一函数值；将所述第二环境状态输入到所述演员目标网络中得到下一个动作描述信息；将所述第二环境状态、所述下一个动作描述信息输入到所述评论家目标网络中得到第二函数值；根据所述第一函数值、所述第二函数值确定优势函数；根据所述优势函数确定梯度；根据所述梯度更新所述选择策略模型的参数，得到训练好的选择策略模型；所述处理模块，具体用于：建立博弈模型；根据所述博弈模型确定第一环境状态以及动作描述信息；根据所述动作描述信息确定动作奖励；根据所述第一环境状态、所述动作描述信息确定第二环境状态；所述处理模块，还用于在所述根据所述动作描述信息选择对应的DNS代理服务器，得到所述目标域名对应的目标IP之前，根据所述动作描述信息确定选择的DNS代理服务器；采用自我审查组件对所述DNS代理服务器进行审查。 6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述方法的步骤。 7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机权　利　要　求　书 2/3 页 3 CN 113852645 B 3

专利 抗客户端DNS缓存中毒攻击的方法、装置及电子设备

专利抗客户端DNS缓存中毒攻击的方法、装置及电子设备