全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211251160.4 (22)申请日 2022.10.13 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 申请人 国网浙江省电力有限公司电力科 学 研究院 (72)发明人 秦中元 周稳 曾国强 张群芳  陈玉清 孙歆 舒鹏 韩嘉佳  汪自翔  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 叶倩 (51)Int.Cl. G06F 21/57(2013.01)G06K 9/62(2022.01) G06N 5/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于串行集成学习的定向漏洞挖掘方 法及系统 (57)摘要 本发明公开了一种基于串行集成学习的定 向漏洞挖掘方法及系统, 对代码训练集进行标签 化后形成带有标签的训练集, 抽取其中漏洞代码 训练集做数据预处理, 对预处理后的漏洞代码做 敏感函数定位, 得到包含敏感函数的语句; 利用 程序控制流图CFG获取与该语句相关的程序切 片, 基于漏洞训练集代码 的数量, 利用无敏感语 句的代码训练集与其混合形成均匀的训练集模 块; 将赋予初始权重的训练集样本送入到CART决 策树的弱分类器中进行训练, 通过计算得到分类 误差率和迭代次数是否满足要求来调整权重系 数并重新学习, 按照加权集 成的方式形成最终强 分类器, 实现测试样本分类, 完成漏洞 挖掘。 本方 法考虑了代码的上下文依赖关系,降低了传统漏 洞挖掘的误报率和漏报率。 权利要求书2页 说明书7页 附图2页 CN 115510455 A 2022.12.23 CN 115510455 A 1.一种基于串行集成学习的定向漏洞挖掘方法, 其特 征在于, 包括以下步骤: S1, 源代码训练集确定: 获取批量的CWE漏洞源代码, 并按照编号整 理成CWE漏洞源代码 训练集; S2, 数据预处理: 对步骤S1获得的CWE漏洞源代码训练集进行数据预处理, 得到可提取 敏感词的漏洞代码训练集; S3, 敏感词定位: 对预处理后的漏洞代码训练集做敏感词定位, 获取该漏洞代码训练集 的所有敏感词及其所在行 数; S4, 漏洞代码切片获取: 对步骤S3得到的漏洞代码得到整段函数代码的控制流图, 并依 据控制流图提取出与敏感词相关的控制流信息和数据流信息, 组合后得到基于CFG控制流 图的代码切片; S5, 待处理数据集获取: 根据步骤S4得到的CFG控制流图的代码切片, 将与具有漏洞代 码训练集数目相似的无漏洞代码训练集与CFG控制流图形成的代码切片做混合, 形成被串 行集成学习模块待处 理的数据集; S6, 串行集成学习模块处理: 将步骤S5得到的混合切片送入串行集成学习模块中进行 训练处理, 经过训练得到弱 分类器并计算分类误差率, 根据检查迭代 次数和误差率是否满 足要求来调整训练集的权重进而进行加权求和, 通过串行学习 形成强分类器, 将测试源码 数据通过敏感词定位和敏感词所在程序语句的控制流程序切片提取, 经过分词和向量化操 作后, 送入到强分类 器中实现测试源码的漏洞分类判别, 完成漏洞的挖掘。 2.如权利要求1所述一种基于串行集成学习的定向漏洞挖掘方法, 其特征在于: 所述步 骤S2中的数据预处理至少包括代码注释的去除、 将用户自定义函数替换成共用函数main ()及符号未 闭合的检测; 所述数据预处理步骤中利用checkmax判断整理的代码训练集包 含漏洞的比例, 将数据集分为包含漏洞的训练集和无漏洞的训练集, 并将包含漏洞的训练 集标记为 正样本, 不包 含敏感函数的训练集标记为负 样本。 3.如权利要求1所述一种基于串行集成学习的定向漏洞挖掘方法, 其特征在于: 所述步 骤S5中, 无漏洞代码训练集与CFG控制流图形成的代码切片的混合比例范围为1:1 ‑1:1.2。 4.如权利要求2或3所述一种基于串行集成学习的定向漏洞挖掘方法, 其特征在于: 所 述步骤S6进一 步包括: S61:为数据集分配权重, 初始样本权重均相等, 每个样本权值为1/m, 即M1i=1/m, 其中i =1…m; S62: 将整个数据集送入串行集成学习模块中进行训练, 得到 CART决策树弱分类 器; S63: 计算弱分类器的分类误差率及权重系数, 同时设定最大迭代次数和最小分类误差 率, 所述分类误差率 其中, Gn(xi) 为分类的 结果 , yi为标签值 , M为样本权重 系数 ; 所述 弱分类器的 权重 系数 A取值[0,1]; S64: 若分类器分类误差率大于最小分类误差率或模型迭代次数未达到最大迭代阈值 时, 则修改样本的权重系数, 再次送入串 行集成学习模块中训练, 计算更新样本权重后的分 类器误差计算率, 直到满足分类器分类误差率小于最小分类误差率或模型迭代次数达到最权 利 要 求 书 1/2 页 2 CN 115510455 A 2大迭代阈值, 流 程结束; S65:综合各个弱分类器的权重系数, 利用加权求和的方式得到最终的强分类器, 所述 求和公式为 其中Gn(xi)的输出值 为{1,‑1}。 5.如权利要求4所述一种基于串行集成学习的定向漏洞挖掘方法, 其特征在于: 所述步 骤S5中, 无漏洞代码训练集与CFG控制流图形成的代码切片的混合比例为1:1。 6.一种基于串行集成学习的定向漏洞挖掘系统, 包括计算机程序, 其特征在于, 所述计 算机程序被处 理器执行时实现如权利要求1所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115510455 A 3

.PDF文档 专利 一种基于串行集成学习的定向漏洞挖掘方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于串行集成学习的定向漏洞挖掘方法及系统 第 1 页 专利 一种基于串行集成学习的定向漏洞挖掘方法及系统 第 2 页 专利 一种基于串行集成学习的定向漏洞挖掘方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:09:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。