专利一种基于串行集成学习的定向漏洞挖掘方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211251160.4 (22)申请日 2022.10.13 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号申请人国网浙江省电力有限公司电力科学研究院 (72)发明人秦中元　周稳　曾国强　张群芳　陈玉清　孙歆　舒鹏　韩嘉佳　汪自翔　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师叶倩 (51)Int.Cl. G06F 21/57(2013.01)G06K 9/62(2022.01) G06N 5/00(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于串行集成学习的定向漏洞挖掘方法及系统 (57)摘要本发明公开了一种基于串行集成学习的定向漏洞挖掘方法及系统，对代码训练集进行标签化后形成带有标签的训练集，抽取其中漏洞代码训练集做数据预处理，对预处理后的漏洞代码做敏感函数定位，得到包含敏感函数的语句；利用程序控制流图CFG获取与该语句相关的程序切片，基于漏洞训练集代码的数量，利用无敏感语句的代码训练集与其混合形成均匀的训练集模块；将赋予初始权重的训练集样本送入到CART决策树的弱分类器中进行训练，通过计算得到分类误差率和迭代次数是否满足要求来调整权重系数并重新学习，按照加权集成的方式形成最终强分类器，实现测试样本分类，完成漏洞挖掘。本方法考虑了代码的上下文依赖关系,降低了传统漏洞挖掘的误报率和漏报率。权利要求书2页说明书7页附图2页 CN 115510455 A 2022.12.23 CN 115510455 A 1.一种基于串行集成学习的定向漏洞挖掘方法，其特征在于，包括以下步骤： S1，源代码训练集确定：获取批量的CWE漏洞源代码，并按照编号整理成CWE漏洞源代码训练集； S2，数据预处理：对步骤S1获得的CWE漏洞源代码训练集进行数据预处理，得到可提取敏感词的漏洞代码训练集； S3，敏感词定位：对预处理后的漏洞代码训练集做敏感词定位，获取该漏洞代码训练集的所有敏感词及其所在行数； S4，漏洞代码切片获取：对步骤S3得到的漏洞代码得到整段函数代码的控制流图，并依据控制流图提取出与敏感词相关的控制流信息和数据流信息，组合后得到基于CFG控制流图的代码切片； S5，待处理数据集获取：根据步骤S4得到的CFG控制流图的代码切片，将与具有漏洞代码训练集数目相似的无漏洞代码训练集与CFG控制流图形成的代码切片做混合，形成被串行集成学习模块待处理的数据集； S6，串行集成学习模块处理：将步骤S5得到的混合切片送入串行集成学习模块中进行训练处理，经过训练得到弱分类器并计算分类误差率，根据检查迭代次数和误差率是否满足要求来调整训练集的权重进而进行加权求和，通过串行学习形成强分类器，将测试源码数据通过敏感词定位和敏感词所在程序语句的控制流程序切片提取，经过分词和向量化操作后，送入到强分类器中实现测试源码的漏洞分类判别，完成漏洞的挖掘。 2.如权利要求1所述一种基于串行集成学习的定向漏洞挖掘方法，其特征在于：所述步骤S2中的数据预处理至少包括代码注释的去除、将用户自定义函数替换成共用函数main ()及符号未闭合的检测；所述数据预处理步骤中利用checkmax判断整理的代码训练集包含漏洞的比例，将数据集分为包含漏洞的训练集和无漏洞的训练集，并将包含漏洞的训练集标记为正样本，不包含敏感函数的训练集标记为负样本。 3.如权利要求1所述一种基于串行集成学习的定向漏洞挖掘方法，其特征在于：所述步骤S5中，无漏洞代码训练集与CFG控制流图形成的代码切片的混合比例范围为1:1 ‑1:1.2。 4.如权利要求2或3所述一种基于串行集成学习的定向漏洞挖掘方法，其特征在于：所述步骤S6进一步包括： S61:为数据集分配权重，初始样本权重均相等，每个样本权值为1/m，即M1i＝1/m，其中i ＝1…m； S62：将整个数据集送入串行集成学习模块中进行训练，得到 CART决策树弱分类器； S63：计算弱分类器的分类误差率及权重系数，同时设定最大迭代次数和最小分类误差率，所述分类误差率其中， Gn(xi) 为分类的结果， yi为标签值， M为样本权重系数；所述弱分类器的权重系数 A取值[0,1]； S64：若分类器分类误差率大于最小分类误差率或模型迭代次数未达到最大迭代阈值时，则修改样本的权重系数，再次送入串行集成学习模块中训练，计算更新样本权重后的分类器误差计算率，直到满足分类器分类误差率小于最小分类误差率或模型迭代次数达到最权　利　要　求　书 1/2 页 2 CN 115510455 A 2大迭代阈值，流程结束； S65:综合各个弱分类器的权重系数，利用加权求和的方式得到最终的强分类器，所述求和公式为其中Gn(xi)的输出值为{1，‑1}。 5.如权利要求4所述一种基于串行集成学习的定向漏洞挖掘方法，其特征在于：所述步骤S5中，无漏洞代码训练集与CFG控制流图形成的代码切片的混合比例为1:1。 6.一种基于串行集成学习的定向漏洞挖掘系统，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115510455 A 3

专利 一种基于串行集成学习的定向漏洞挖掘方法及系统

专利一种基于串行集成学习的定向漏洞挖掘方法及系统