(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111545423.8 (22)申请日 2021.12.16 (71)申请人 四川大学 地址 610065 四川省成 都市武侯区一环路 南一段24号 (72)发明人 方智阳 王俊峰 耿嘉炫  (74)专利代理 机构 成都禾创知家知识产权代理 有限公司 51284 代理人 刘凯 (51)Int.Cl. H04L 9/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于强化学习的异常网络流量检测器 生成方法 (57)摘要 本发明公开了一种基于强化学习的异常网 络流量检测器生成方法, 涉及网络与信息安全技 术领域, 包括网络流量样本获取步骤、 智能模型 设置步骤、 强化学习模型构建步骤、 特征集合选 择步骤、 检测评价步骤以及检测器生成步骤采用 强化学习算法, 模拟信息安全专家选择流量特征 生成异常网络流量检测器过程, 设计对应的强化 学习交互环境。 通过智 能体不断地与环境交互, 智能体从原始流量特征集合中选出高区分度的 流量特征, 最终将所选特征用于基于机器学习方 法的异常网络流量检测器训练, 最终实现对异常 流量的高精度、 高响应 检测。 权利要求书2页 说明书7页 附图2页 CN 114374541 A 2022.04.19 CN 114374541 A 1.一种基于强化学习的异常网络流量检测器生成方法, 其特征在于, 包括网络流量样 本获取步骤、 智能模型设置步骤、 强化学习模型构建步骤、 特征集合选择步骤、 检测评价步 骤以及检测器生成步骤: 所述网络流量样本获取步骤, 获取包含正常网络流量和异常网络流量的网络流量样 本, 并对网络流量样本进行预处理, 使网络流量样本中的正常网络流量和异常网络流量均 为归一化的数字特 征; 所述智能模型设置步骤, 初始化智能模型, 设置智能模型强化学习的环境、 动作空间与 状态空间, 其中, 所述环境中包括含有若干种可调用的机器学习算法的算法池; 设定对智能 模型的奖励函数, 并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器 学习算法; 所述强化学习模型构建步骤, 选择至少包含两个前馈深度Q网络的Deep  Q‑Learning网 络作为强化学习模型并初始化其超参数; 其中一个前馈深度Q网络用于训练所述智能模型 进行强化学习, 另一个用于 输出Q值指导所述智能模型做出决策; 所述特征集合选择步骤, 在所述强化学习模型构建步骤中得到强化学习模型的指导 下、 通过所述智能模型设置步骤的智能模型从原始网络流量的特征集中选取一个特征, 并 纳入已选特 征集合; 所述检测评价步骤, 基于所述特征集合选择步骤中的特征集合, 通过所述强化学习模 型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训 练生成备选异常 网络流量检测器, 并利用所述网络流量样本对备选异常 网络流量对备选异 常网络流量检测器进 行测试获取评价指标、 并根据所述智能模型设置步骤中的奖励函数计 算得到奖励; 所述检测器生成步骤, 当检测评价步骤中的备选异常网络流量检测器到达设定的训练 轮次时, 对所有备选异常网络流量检测器对应的智能模型进行评估, 获得所有智能模型中 最优流量特征子集所对应的机器学习算法, 并生成最终的异常网络流 量检测器。 2.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征在 于: 所述网络流量样本获取步骤中, 对网络流量样本进行预处理, 具体的, 是对网络流量样 本中的非数字特 征进行数字化操作, 然后对所有数字特 征进行归一 化处理。 3.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征在 于: 所述智能模型设置步骤中, 奖励函数为 其中, ωa、 ωp以及ωr为对应的权重系数, 而ra、 rp以及rr分别代表了异常流量检测器的检测准确率、 精 确率以及召回率的奖励值分量。 4.如权利要求3所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征在 于: 所述权 重系数ωa、 ωp以及ωr的取值分别为0.4、 0.3以及0.3 。 5.如权利要求3或4所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征 在于, 所述异常流量检测器的检测准确率ra、 精确率rp以及召回率rr的奖励值分量的取值 为:权 利 要 求 书 1/2 页 2 CN 114374541 A 2其中, prea, p, r表示使用上一轮次中智能体选择的特征生成的恶意流量检测器所能获得 的准确率、 精确率和召回率。 6.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征在 于: 所述强化学习模型构建步骤中, 所述前馈深度Q网络的结构一致, 每个前馈深度Q网络均 包含输入层、 输出层以及两个隐藏层; 其中, 第一个隐藏层 含有128个神经元, 第二个隐藏层 含有64个神经元, 神经元的激活函数均为ReLU激活函数, 同时还加入了防止模型过拟合的 Dropout机制, 所述输出层含有41个输出值, 对应的, 所述动作空间的41个动作。 7.如权利要求1或6所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征 在于, 所述强化学习模型的超参数初始化的设定如下: 折扣系数g amma=0.99; Q‑Learning网络的更新间隔为5轮次更新 一次; 单次输入网络的最小样本数量 为16个; 采用经验回放机制, 经验回放池的大小为5 0000; 开始采用经验回放机制的时机为 算法执行了200轮次以后; 采用探索和利用策略, 一 开始探索参数为1, 终止条件为0.3 。 8.如权利要求1或6所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征 在于: 所述特征集合选择步骤中, 是通过对强化学习模型中用于指导所述智能模型做出决 策的前馈深度Q网络的输出Q值进 行修改, 来防止智能模型从原始网络流量的特征集中重复 选取同一个特 征。 9.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征在 于: 所述检测评价步骤中, 所评价指标包括准确率、 精确率、 召回率、 误警率、 漏警率和单流 量样本检测率。 10.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法, 其特征在 于: 所述检测评价步骤中, 利用所述网络流量样本对备选异常网络流量对备选异常网络流 量检测器进 行测试过程中, 将所得到的当前的状态、 当前的动作以及奖励反馈给智能模型, 如果已经达到终止状态, 即智能模型所选特征数量已达 设置上限, 则进入下一轮次的训练, 否则跳转至所述特 征集合选择步骤继续进行 特征选取。权 利 要 求 书 2/2 页 3 CN 114374541 A 3

.PDF文档 专利 一种基于强化学习的异常网络流量检测器生成方法

安全报告 > 其他 > 文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的异常网络流量检测器生成方法 第 1 页 专利 一种基于强化学习的异常网络流量检测器生成方法 第 2 页 专利 一种基于强化学习的异常网络流量检测器生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 23:14:05上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。