[发明专利]基于并行集成学习的漏洞挖掘方法、装置、设备及介质在审
| 申请号: | 202210797374.5 | 申请日: | 2022-07-08 |
| 公开(公告)号: | CN115130110A | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 孙歆;周稳;汪自翔;王文;曾国强;秦中元;戴桦;李沁园;王译锋 | 申请(专利权)人: | 国网浙江省电力有限公司电力科学研究院;东南大学 |
| 主分类号: | G06F21/57 | 分类号: | G06F21/57;G06K9/62;G06F40/289 |
| 代理公司: | 浙江翔隆专利事务所(普通合伙) 33206 | 代理人: | 张建青 |
| 地址: | 310014 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 并行 集成 学习 漏洞 挖掘 方法 装置 设备 介质 | ||
1.一种基于并行集成学习的漏洞挖掘方法,其特征在于,包括以下步骤:
接收混合均匀的漏洞代码训练集;
对所述训练集进行随机采样;
对每个随机采样的样本进行分词,并对分词后的句子进行向量化,得到特征向量;
将所述特征向量输入至增量式并行集成学习的多个基模型中进行训练;
对各个基模型输出的分类结果进行投票,得到漏洞分类结果。
2.如权利要求1所述的基于并行集成学习的漏洞挖掘方法,其特征在于,所述基模型包括决策树、支持向量机和神经网络。
3.如权利要求1所述的基于并行集成学习的漏洞挖掘方法,其特征在于,通过doc2vec算法进行句子向量化,得到特征向量。
4.如权利要求1所述的基于并行集成学习的漏洞挖掘方法,其特征在于,所述混合均匀的漏洞代码训练集的获得过程包括:
获取漏洞数据集,并对所述数据集进行预处理;
对预处理后的所述数据集进行扫描,得到敏感语句定位;
生成所述敏感语句定位的抽象语法树流,并根据所述抽象语法树流生成抽象语法树切片;
获取无漏洞数据集,将所述无漏洞数据集与所述抽象语法树切片进行混合,得到所述混合均匀的漏洞代码训练集。
5.如权利要求4所述的基于并行集成学习的漏洞挖掘方法,其特征在于,所述预处理包括注释清除、公共变量替换、漏洞代码整合。
6.如权利要求4所述的基于并行集成学习的漏洞挖掘方法,其特征在于,对预处理后的所述数据集进行扫描,得到敏感语句定位的步骤包括:
通过joern模块对所述数据集进行扫描,获取所述数据集中所有漏洞相关的敏感语句,并获得所述敏感语句所在的行数,得到敏感语句定位。
7.如权利要求4所述的基于并行集成学习的漏洞挖掘方法,其特征在于,根据所述抽象语法树流生成抽象语法树切片,包括:根据所述抽象语法树流,将敏感语句和其他非敏感语句进行组合,得到所述抽象语法树切片。
8.一种基于并行集成学习的漏洞挖掘装置,其特征在于,其包括:
接收模块,用于接收混合均匀的漏洞代码训练集;
训练模块,用于对所述训练集进行随机采样;对每个随机采样的样本进行分词,并对分词后的句子进行向量化,得到特征向量;将所述特征向量输入至增量式并行集成学习的多个基模型中进行训练;
结果输出模块,用于对各个基模型输出的分类结果进行投票,得到漏洞分类结果。
9.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于并行集成学习的漏洞挖掘方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于并行集成学习的漏洞挖掘方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司电力科学研究院;东南大学,未经国网浙江省电力有限公司电力科学研究院;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210797374.5/1.html,转载请声明来源钻瓜专利网。





