全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111547024.5 (22)申请日 2021.12.16 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 刘吉 张甲元 周瑞璞 窦德景  (74)专利代理 机构 北京市汉坤律师事务所 11602 代理人 姜浩然 吴丽丽 (51)Int.Cl. H04L 9/40(2022.01) G06K 9/62(2022.01) (54)发明名称 流量分类方法及装置、 训练方法及装置、 设 备和介质 (57)摘要 本公开提供了一种流量分类方法及装置、 训 练方法及装置、 设备和介质, 涉及人工智能领域, 尤其涉及大数据技术领域。 实现方案为: 对于待 分类对象的一个或多个特征中的每个特征, 进行 预处理操作, 其中, 预处理操作包括以下至少之 一: 响应于该特征的特征值为无效数据, 将该特 征值设置为空值; 响应于该特征的特征值为非数 据值, 将该特征值转换为整数值; 以及响应于该 特征为非端口特征, 对该特征的特征值进行归一 化操作; 以及将待分类对象 的一个或多个特征输 入流量分类器, 以确定待分类对象的流 量类型。 权利要求书3页 说明书11页 附图4页 CN 114205164 A 2022.03.18 CN 114205164 A 1.一种由计算机实现的流 量分类方法, 包括: 对于待分类对象的一个或多个特征中的每个特征, 进行预处理操作, 其中, 所述预处理 操作包括以下至少之一: 响应于该 特征的特征值为无效数据, 将该 特征值设置为空值; 响应于该 特征为非数值特 征, 将该特征的特征值转换为整数值; 以及 响应于该 特征为非端口特 征, 对该特征的特征值进行归一 化操作; 以及 将所述待分类对象的所述一个或多个特征输入流量分类器, 以确定所述待分类对象的 流量类型。 2.根据权利要求1所述的方法, 其中, 所述响应于该特征为非数值特征, 将该特征的特 征值转换为整数值包括: 响应于该特征为IP地址特征, 对于该特征的每段地址, 将该特征的每段地址乘以该段 地址所对应的系数, 以得到该 段地址所对应的乘积; 以及 计算该特征的地址所对应的乘积之和, 作为该 特征的特征值。 3.根据权利要求1所述的方法, 其中, 所述响应于该特征为非端口特征, 对该特征的特 征值进行归一 化操作包括: 计算该特征的特征值与该 特征的下限值的差值, 作为第一差值; 计算该特征的上限值与该 特征的下限值的差值, 作为第二差值; 以及 计算所述第一差值与所述第二差值的比值, 作为该 特征的特征值。 4.根据权利要求1 ‑3中任一项所述的方法, 其中, 所述 流量分类器包括以下至少一种: K邻近分类 器; 决策树分类 器; 以及 随机森林分类 器。 5.根据权利要求1 ‑3中任一项所述的方法, 其中, 所述待分类对象的所述一个或多个特 征包括以下至少一种: IP地址特征、 端口特征、 持续时间特征、 流 发送字节数特征、 流接收字 节数特征、 流发送速率特征、 流接 收速率特征、 帧长度统计特征、 帧时间统计特征以及响应 时间统计特 征。 6.根据权利 要求1‑3中任一项所述的方法, 所述待分类对象为DoH流量, 并且, 所述待分 类对象的流 量类型为良性 流量或恶意 流量。 7.根据权利要求1 ‑3中任一项所述的方法, 所述预处理操作还包括: 删除所述待分类对 象的一个或多个特 征中的时间戳特 征。 8.一种流量分类器的训练方法, 其中, 所述流量分类器的训练集包括多个样本对象, 所 述训练方法包括: 对于每个样本对象的一个或多个特征中的每个特征, 进行预处理操作, 其中, 所述预处 理操作包括以下至少之一: 响应于该 特征的特征值为无效数据, 将该 特征值设置为空值; 响应于该 特征为非数值特 征, 将该特征的特征值转换为整数值; 以及 响应于该 特征为非端口特 征, 对该特征的特征值进行归一 化操作; 以及 基于所述训练集中的样本对象的所述 一个或多个特 征, 训练所述 流量分类器。 9.根据权利要求8所述的方法, 其中, 所述响应于该特征为非数值特征, 将该特征的特权 利 要 求 书 1/3 页 2 CN 114205164 A 2征值转换为整数值包括: 响应于该特征为IP地址特征, 对于该特征的每段地址, 将该特征的每段地址乘以该段 地址所对应的系数, 以得到该 段地址所对应的乘积; 以及 计算该特征的地址所对应的乘积之和, 作为该 特征的特征值。 10.根据权利要求8所述的方法, 其中, 所述响应于该特征为非端口特征, 对该特征的特 征值进行归一 化操作包括: 计算所述训练集中的多个样本对象的该 特征的最小特 征值, 作为该 特征的下限值; 计算所述训练集中的多个样本对象的该 特征的最大 特征值, 作为该 特征的上限值; 计算该特征的特征值与该 特征的下限值的差值, 作为第一差值; 计算该特征的上限值与该 特征的下限值的差值, 作为第二差值; 以及 计算所述第一差值与所述第二差值的比值, 作为该 特征的特征值。 11.根据权利要求8 ‑10中任一项所述的方法, 其中, 所述流量分类器包括以下至少一 种: K邻近分类 器; 决策树分类 器; 以及 随机森林分类 器。 12.根据权利要求8 ‑10中任一项所述的方法, 其中, 所述样本对象的所述一个或多个特 征包括以下至少一种: IP地址特征、 端口特征、 持续时间特征、 流 发送字节数特征、 流接收字 节数特征、 流发送速率特征、 流接 收速率特征、 帧长度统计特征、 帧时间统计特征以及响应 时间统计特 征。 13.根据权利 要求8‑10中任一项所述的方法, 所述样本对象为DoH流量, 并且, 所述样本 对象的流 量类型包括良性 流量和恶意 流量。 14.根据权利要求8 ‑10中任一项所述的方法, 所述预处理操作还包括: 删除所述样本对 象的一个或多个特 征中的时间戳特 征。 15.根据权利要求8 ‑10中任一项所述的方法, 还 包括: 对于所述训练集中占比小于占比阈值的流量类型, 基于该流量类型所对应的样本对 象, 生成一个或多个扩充对象; 以及 将所述一个或多个扩充对象加入所述训练集。 16.一种流 量分类装置, 包括: 预处理模块, 被配置为: 对于待分类对象的一个或多个特征中的每个特征, 进行预处理 操作, 其中, 所述预处 理操作包括以下至少之一: 响应于该 特征的特征值为无效数据, 将该 特征值设置为空值; 响应于该 特征为非数值特 征, 将该特征的特征值转换为整数值; 以及 响应于该 特征为非端口特 征, 对该特征的特征值进行归一 化操作; 以及 流量分类模块, 被配置为: 将所述待分类对象的所述一个或多个特征输入流量分类器, 以确定所述待分类对象的流 量类型。 17.一种流量分类器的训练装置, 其中, 所述流量分类器的训练集包括多个样本对象, 所述训练装置包括: 预处理模块, 被配置为: 对于每个样本对象的一个或多个特征中的每个特征, 进行预处权 利 要 求 书 2/3 页 3 CN 114205164 A 3

.PDF文档 专利 流量分类方法及装置、训练方法及装置、设备和介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 流量分类方法及装置、训练方法及装置、设备和介质 第 1 页 专利 流量分类方法及装置、训练方法及装置、设备和介质 第 2 页 专利 流量分类方法及装置、训练方法及装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:36:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。