(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111393416.0 (22)申请日 2021.11.23 (71)申请人 广州大学 地址 510006 广东省广州市番禺区大 学城 外环西路23 0号 (72)发明人 王宇 韦国成 薛含笑  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 代理人 李君 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 智能音箱网络流量的分类方法、 系统、 电子 设备和存 储介质 (57)摘要 本发明公开了一种智能音箱网络流量的分 类方法、 系统、 电子设备和存储介质, 所述方法包 括: 采集智 能音箱网络流量数据; 智 能音箱网络 流量数据包 括Common类、 Play类、 Direction类和 Control类; 对智能音箱网络流量数据进行预处 理, 得到特征数据集; 采取联合信息增益与 Pearson相关系数的方法对特征数据集进行特征 选择, 得到 特征子集; 根据特征子集, 通过网络流 量分类器实现智能音箱网络流量的分类。 本发明 采用联合信息增益与 Pearson相关系数对智能音 箱流量进行特征选择, 提高了分类器的性能, 同 时采用基于机器学习的流量分类技术可以更直 观有效的对网络流量进行分类识别, 用以评估其 安全状况。 权利要求书2页 说明书12页 附图8页 CN 114219008 A 2022.03.22 CN 114219008 A 1.一种智能音箱网络流 量的分类方法, 其特 征在于, 所述方法包括: 采集智能音箱网络流量数据; 所述智能音箱网络流量数据包括Common类、 Play类、 Direction类和Control类; 对所述智能音箱网络流 量数据进行 预处理, 得到特 征数据集; 采取联合信息增益与Pearson相关系数的方法对所述特征数据集进行特征选择, 得到 特征子集; 根据所述特 征子集, 通过网络流 量分类器实现智能音箱网络流 量的分类。 2.根据权利要求1所述的分类方法, 其特 征在于, 使用W ireshark进行流 量数据的采集; 采集的智能音箱网络流量数据被保存为PCAP文件, 其中每行数据表示一个网络数据 包, 所述网络数据包包括源端口号、 目标端口号、 源IP地址、 目标IP地址、 Unix 时间戳、 数据 包载荷大小和协议类型信息 。 3.根据权利要求1所述的分类方法, 其特征在于, 所述预处理, 包括流量聚合、 特征处理 和数据集标注, 其中: 所述流量聚合, 读取PCAP文件, 获取单个数据包的五元组信息; 以所述五元组信息为依 据, 根据传输协议中的SYN和FI N标志位进行流切割, 从而保存完整的网络流, 得到双向流; 所述特征处理, 将所述双 向流中的数据转化为特征向量格式, 再将双 向流分为两个方 向的单向流; 根据流量数据包长度、 载荷以及时间戳的统计特征, 分别对双向流和单向流中 的数据进行 特征提取, 获得网络流特 征; 所述数据集标注, 根据智能音箱网络流量数据的的产生方式, 在所述网络流特征上打 上相应的标签, 从而得到特 征数据集。 4.根据权利要求1所述的分类方法, 其特征在于, X和Y分别为所述特征数据集中的任意 两个特征, X和Y称为特 征对; 所述采取联合信息增益与Pearson相 关系数的方法对所述特征数据集进行特征选择, 得到特征子集, 包括: 设置阈值 k; 计算所述特 征数据集中所有特 征对的Pearso n相关系数; 若特征对的Pearso n相关系数 大于阈值 k, 则计算特 征对的信息增益; 计算出所有的信息增益; 并将信息增益较小值所对应的特 征删除; 将剩余特 征子集作为特 征选择结果, 即为特 征子集。 5.根据权利要求4所述的分类方法, 其特征在于, 所述特征对X和Y的Pearson相关系数 为X和Y之间的协方差和标准差的商, 即: 其中, 和 分别表示特征X和Y所有取值的算术平均值, Xi和Yi分别表示 特征X和Y在 第i条数据流的特 征取值。 6.根据权利要求 4所述的分类方法, 其特 征在于, 所述特 征对X和Y的信息增益 为:权 利 要 求 书 1/2 页 2 CN 114219008 A 2G(Y,X)=H(X) ‑H(X|Y)               (2) 其中, H(X)为信息熵, H(X|Y)为条件熵; 在信息论中, 信息熵用来描述随机事 件的不确定性或纯度, 其定义 为: 假设随机变量为Xi(i=1,2, …,n), 对于每一个 可能的取值xi, 其概率为P(X=xi), pi=P (X=xi), 则随机变量的信息熵为: 条件熵用来衡量在特 征Y下、 特 征X的不确定性, 其定义 为: 7.根据权利要求1所述的分类方法, 其特征在于, 所述根据所述特征子集, 通过网络流 量分类器实现智能音箱网络流量的分类, 是分别采用随机森林、 朴素贝叶斯、 贝叶斯网络和 支持向量机构建网络流 量分类器, 实现对智能音箱网络流 量的分类。 8.一种智能音箱网络流 量的分类系统, 其特 征在于, 所述系统包括: 数据采集模块, 用于采集智能音箱网络流量数据; 所述智能音箱网络流量数据包括 Common类、 Play类、 Directi on类和Control类; 数据预处 理模块, 用于对所述智能音箱网络流 量数据进行 预处理, 得到特 征数据集; 数据集特征选择模块, 用于采取联合信息增益与Pearson相 关系数的方法对所述特征 数据集进行 特征选择, 得到特 征子集; 分类模块, 用于根据所述特征子集, 通过网络流量分类器实现智能音箱网络流量的分 类。 9.一种电子设备, 包括处理器以及用于存储处理器可执行程序的存储器, 其特征在于, 所述处理器执行存储器存储的程序时, 实现权利要求1 ‑7任一项所述的分类方法。 10.一种存储介质, 存储有程序, 其特征在于, 所述程序被处理器执行时, 实现权利要求 1‑7任一项所述的分类方法。权 利 要 求 书 2/2 页 3 CN 114219008 A 3

.PDF文档 专利 智能音箱网络流量的分类方法、系统、电子设备和存储介质

安全报告 > 其他 > 文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 智能音箱网络流量的分类方法、系统、电子设备和存储介质 第 1 页 专利 智能音箱网络流量的分类方法、系统、电子设备和存储介质 第 2 页 专利 智能音箱网络流量的分类方法、系统、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-19 01:22:15上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。