专利 一种基于强化学习的异常网络流量检测器生成方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111545423.8 (22)申请日 2021.12.16 (71)申请人四川大学地址 610065 四川省成都市武侯区一环路南一段24号 (72)发明人方智阳　王俊峰　耿嘉炫　 (74)专利代理机构成都禾创知家知识产权代理有限公司 51284 代理人刘凯 (51)Int.Cl. H04L 9/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于强化学习的异常网络流量检测器生成方法 (57)摘要本发明公开了一种基于强化学习的异常网络流量检测器生成方法，涉及网络与信息安全技术领域，包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤采用强化学习算法，模拟信息安全专家选择流量特征生成异常网络流量检测器过程，设计对应的强化学习交互环境。通过智能体不断地与环境交互，智能体从原始流量特征集合中选出高区分度的流量特征，最终将所选特征用于基于机器学习方法的异常网络流量检测器训练，最终实现对异常流量的高精度、高响应检测。权利要求书2页说明书7页附图2页 CN 114374541 A 2022.04.19 CN 114374541 A 1.一种基于强化学习的异常网络流量检测器生成方法，其特征在于，包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤：所述网络流量样本获取步骤，获取包含正常网络流量和异常网络流量的网络流量样本，并对网络流量样本进行预处理，使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征；所述智能模型设置步骤，初始化智能模型，设置智能模型强化学习的环境、动作空间与状态空间，其中，所述环境中包括含有若干种可调用的机器学习算法的算法池；设定对智能模型的奖励函数，并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器学习算法；所述强化学习模型构建步骤，选择至少包含两个前馈深度Q网络的Deep Q‑Learning网络作为强化学习模型并初始化其超参数；其中一个前馈深度Q网络用于训练所述智能模型进行强化学习，另一个用于输出Q值指导所述智能模型做出决策；所述特征集合选择步骤，在所述强化学习模型构建步骤中得到强化学习模型的指导下、通过所述智能模型设置步骤的智能模型从原始网络流量的特征集中选取一个特征，并纳入已选特征集合；所述检测评价步骤，基于所述特征集合选择步骤中的特征集合，通过所述强化学习模型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训练生成备选异常网络流量检测器，并利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试获取评价指标、并根据所述智能模型设置步骤中的奖励函数计算得到奖励；所述检测器生成步骤，当检测评价步骤中的备选异常网络流量检测器到达设定的训练轮次时，对所有备选异常网络流量检测器对应的智能模型进行评估，获得所有智能模型中最优流量特征子集所对应的机器学习算法，并生成最终的异常网络流量检测器。 2.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述网络流量样本获取步骤中，对网络流量样本进行预处理，具体的，是对网络流量样本中的非数字特征进行数字化操作，然后对所有数字特征进行归一化处理。 3.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述智能模型设置步骤中，奖励函数为其中， ωa、 ωp以及ωr为对应的权重系数，而ra、 rp以及rr分别代表了异常流量检测器的检测准确率、精确率以及召回率的奖励值分量。 4.如权利要求3所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述权重系数ωa、 ωp以及ωr的取值分别为0.4、 0.3以及0.3 。 5.如权利要求3或4所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于，所述异常流量检测器的检测准确率ra、精确率rp以及召回率rr的奖励值分量的取值为：权　利　要　求　书 1/2 页 2 CN 114374541 A 2其中， prea， p， r表示使用上一轮次中智能体选择的特征生成的恶意流量检测器所能获得的准确率、精确率和召回率。 6.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述强化学习模型构建步骤中，所述前馈深度Q网络的结构一致，每个前馈深度Q网络均包含输入层、输出层以及两个隐藏层；其中，第一个隐藏层含有128个神经元，第二个隐藏层含有64个神经元，神经元的激活函数均为ReLU激活函数，同时还加入了防止模型过拟合的 Dropout机制，所述输出层含有41个输出值，对应的，所述动作空间的41个动作。 7.如权利要求1或6所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于，所述强化学习模型的超参数初始化的设定如下：折扣系数g amma＝0.99； Q‑Learning网络的更新间隔为5轮次更新一次；单次输入网络的最小样本数量为16个；采用经验回放机制，经验回放池的大小为5 0000；开始采用经验回放机制的时机为算法执行了200轮次以后；采用探索和利用策略，一开始探索参数为1，终止条件为0.3 。 8.如权利要求1或6所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述特征集合选择步骤中，是通过对强化学习模型中用于指导所述智能模型做出决策的前馈深度Q网络的输出Q值进行修改，来防止智能模型从原始网络流量的特征集中重复选取同一个特征。 9.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述检测评价步骤中，所评价指标包括准确率、精确率、召回率、误警率、漏警率和单流量样本检测率。 10.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述检测评价步骤中，利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试过程中，将所得到的当前的状态、当前的动作以及奖励反馈给智能模型，如果已经达到终止状态，即智能模型所选特征数量已达设置上限，则进入下一轮次的训练，否则跳转至所述特征集合选择步骤继续进行特征选取。权　利　要　求　书 2/2 页 3 CN 114374541 A 3

专利 一种基于强化学习的异常网络流量检测器生成方法

专利一种基于强化学习的异常网络流量检测器生成方法