[发明专利]基于并行集成学习的漏洞挖掘方法、装置、设备及介质在审
申请号: | 202210797374.5 | 申请日: | 2022-07-08 |
公开(公告)号: | CN115130110A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 孙歆;周稳;汪自翔;王文;曾国强;秦中元;戴桦;李沁园;王译锋 | 申请(专利权)人: | 国网浙江省电力有限公司电力科学研究院;东南大学 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06K9/62;G06F40/289 |
代理公司: | 浙江翔隆专利事务所(普通合伙) 33206 | 代理人: | 张建青 |
地址: | 310014 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 并行 集成 学习 漏洞 挖掘 方法 装置 设备 介质 | ||
本发明公开了一种基于并行集成学习的漏洞挖掘方法,涉及计算机网络安全技术领域,用于解决现有高漏报率和误报率较高的问题,该方法包括以下步骤:接收混合均匀的漏洞代码训练集;对所述训练集进行随机采样;对每个随机采样的样本进行分词,并对分词后的句子进行向量化,得到特征向量;将所述特征向量输入至增量式并行集成学习的多个基模型中进行训练;对各个基模型输出的分类结果进行投票,得到漏洞分类结果。本发明还公开了一种基于并行集成学习的漏洞挖掘装置、电子设备和计算机存储介质。本发明通过对提取的特征向量进行并行集成学习分类,进而获取准确的漏洞分类结果,避免了样本分布不均和重复挖掘的问题,且准确率高。
技术领域
本发明涉及计算机网络安全技术领域,尤其涉及一种基于并行集成学习的漏洞挖掘方法、装置、设备及介质。
背景技术
系统漏洞(System vulnerabilities)是指应用软件或操作系统软件在逻辑设计上的缺陷或错误,被不法者利用,通过网络植入木马、病毒等方式来攻击或控制整个电脑,窃取电脑中的重要资料和信息,甚至破坏系统。因此,必须对漏洞进行针对性的修复。在修复漏洞前,最重要的就是找出漏洞并对其进行分析。
传统的漏洞挖掘方式主要依靠人力挖掘和模糊测试,或依赖于漏洞检测工具实现漏洞发现,但由于相关检测工具的不灵活性和文件大小的限制,导致这些挖掘方式的扩展性较低,无法应用于大数据时代。随着人工智能在各行各业的广泛应用,人工智能的相关算法也为解决传统的漏洞挖掘提供了一些新的思路。
目前国外存在静态挖掘的相关技术,如VulDeePecker提出的方案采用BiLSTM对C/C++漏洞源码进行预测,但难以解决终端设备的漏洞样本分布不均匀、重复漏洞挖掘的问题,且静态分析的高漏报率和误报率较高。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于并行集成学习的漏洞挖掘方法,其通过获取样本特征向量,结合并行集成学习的多个基模型,进而得到准确度较高的漏洞分类结果。
本发明的目的之一采用以下技术方案实现:
一种基于并行集成学习的漏洞挖掘方法,包括以下步骤:
接收混合均匀的漏洞代码训练集;
对所述训练集进行随机采样;
对每个随机采样的样本进行分词,并对分词后的句子进行向量化,得到特征向量;
将所述特征向量输入至增量式并行集成学习的多个基模型中进行训练;
对各个基模型输出的分类结果进行投票,得到漏洞分类结果。
进一步地,所述基模型包括决策树、支持向量机和神经网络。
进一步地,通过doc2vec算法进行句子向量化,得到特征向量。
进一步地,所述混合均匀的漏洞代码训练集的获得过程包括:
获取漏洞数据集,并对所述数据集进行预处理;
对预处理后的所述数据集进行扫描,得到敏感语句定位;
生成所述敏感语句定位的抽象语法树流,并根据所述抽象语法树流生成抽象语法树切片;
获取无漏洞数据集,将所述无漏洞数据集与所述抽象语法树切片进行混合,得到所述混合均匀的漏洞代码训练集。
进一步地,所述预处理包括注释清除、公共变量替换、漏洞代码整合。
进一步地,对预处理后的所述数据集进行扫描,得到敏感语句定位的步骤包括:通过joern模块对所述数据集进行扫描,获取所述数据集中所有漏洞相关的敏感语句,并获得所述敏感语句所在的行数,得到敏感语句定位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司电力科学研究院;东南大学,未经国网浙江省电力有限公司电力科学研究院;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210797374.5/2.html,转载请声明来源钻瓜专利网。