[发明专利]基于投票机制的安全漏洞报告数据集构建方法在审

专利信息
申请号: 202011074609.5 申请日: 2020-10-09
公开(公告)号: CN112231706A 公开(公告)日: 2021-01-15
发明(设计)人: 吴潇雪;郑炜;陈智通;栾文飞;慕德俊 申请(专利权)人: 西北工业大学
主分类号: G06F21/57 分类号: G06F21/57;G06K9/62;G06N3/04;G06N3/08
代理公司: 西北工业大学专利中心 61204 代理人: 刘新琼
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 投票 机制 安全漏洞 报告 数据 构建 方法
【说明书】:

发明涉及一种基于迭代投票分类的自动数据标注方法,该方法首先准备初始标记样本,利用国际权威漏洞报告库CVE数据辅助正样本标记,并从已有报告库中选择少量高质量非安全漏洞相关报告作为负样本。其次,使用初始标记样本对三个不同分类器进行训练,并使用所训练的三个分类模型分别对目标数据集进行预测,对于三个分类器预测结果一致为负样本的数据,将其加入初始标记样本中,并进入下一迭代。最后,通过对模型自动样本标记结果准确性进行验证。实验证明,该方法可有效提高安全漏洞数据集标记准确性,其F1‑score可达0.91。

技术领域

本发明属于软件测试中软件安全保证领域,涉及安全漏洞预测方法、数据标记方法、数据集构建方法等。

背景技术

基于机器学习的安全漏洞报告识别受到学术界和工业界越来越多关注,而高质量标记数据集是机器学习模型应用的前提。最近,文献Peter(Peters,F.,Tun,T.,Yu,Y.,Nuseibeh,B.:Text filtering and ranking for security bug reportprediction.IEEE Transactions on Software Engineering 45(6),615–631(2019))针对漏洞报告检测数据集存在误标的问题,提出了一种名为FARSEC的噪声数据过滤方法。该方法包括两个主要步骤:

步骤一:提取安全相关词汇。使用TF-IDF方法从安全漏洞报告中提取安全相关关键词汇。

步骤二:过滤噪音数据。计算非安全漏洞报告与步骤一所得的安全相关词汇之间的相似度,过滤掉相似度较高的数据。

然而,该方法对于噪音数据的识别误报率较高,导致许多非噪音数据被过滤掉,造成极大的信息损失,使得采用过滤之后数据集训练的模型对安全漏洞报告检测准确率非常低,平均值小于50%。

发明内容

要解决的技术问题

为了提高现有技术中安全漏洞报告检测的准确率,本发明提出一种基于投票机制的安全漏洞报告数据集构建方法。

技术方案

一种基于投票机制的安全漏洞报告数据集构建方法,其特征在于步骤如下:

步骤1:初始训练样本标记,该阶段包括两个输入和两个输出:

输入:CVE数据和未标记样本Ball

输出:已标记初始训练样本集Bl和剩余未标记样本集Bu

步骤1.1:基于CVE进行正样本标记:将软件产品的缺陷报告中与CVE相关联的记录,将其标记为“正”样本,最终得到软件产品的所有已标记正样本集合Bpos;将标记为正样本的记录从软件产品缺陷报告集合Ball中移除,得到剩余未标记样本集Bleft

步骤1.2:基于莱文斯坦距离获取初始标记“负”样本:通过计算剩余未标记缺陷报告Bleft中的每条记录与已标记正样本Bpos之间的莱文斯坦距离,提取莱文斯坦距离最大的前50条记录作为初始标记“负”样本,形成初始标记负样本集合Bneg;将标记为负样本的记录从软件产品缺陷报告集合Bleft中移除,剩余的未标记样本集则作为目标样本集Bu

步骤1.3:将初始标记正样本集合Bpos和初始标记负样本集合Bneg进行合并,形成初始训练样本集Bl

步骤1.4:输出初始训练样本集Bl和未标记目标样本集Bu

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011074609.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top