[发明专利]基于投票机制的安全漏洞报告数据集构建方法在审

申请号：	202011074609.5	申请日：	2020-10-09
公开（公告）号：	CN112231706A	公开（公告）日：	2021-01-15
发明（设计）人：	吴潇雪;郑炜;陈智通;栾文飞;慕德俊	申请（专利权）人：	西北工业大学
主分类号：	G06F21/57	分类号：	G06F21/57;G06K9/62;G06N3/04;G06N3/08
代理公司：	西北工业大学专利中心 61204	代理人：	刘新琼
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于投票机制安全漏洞报告数据构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于投票机制的安全漏洞报告数据集构建方法，其特征在于步骤如下：

步骤1：初始训练样本标记，该阶段包括两个输入和两个输出：

输入：CVE数据和未标记样本B_all；

输出：已标记初始训练样本集B_l和剩余未标记样本集B_u；

步骤1.1：基于CVE进行正样本标记：将软件产品的缺陷报告中与CVE相关联的记录，将其标记为“正”样本，最终得到软件产品的所有已标记正样本集合B_pos；将标记为正样本的记录从软件产品缺陷报告集合B_all中移除，得到剩余未标记样本集B_left；

步骤1.2：基于莱文斯坦距离获取初始标记“负”样本：通过计算剩余未标记缺陷报告B_left中的每条记录与已标记正样本B_pos之间的莱文斯坦距离，提取莱文斯坦距离最大的前若干条记录作为初始标记“负”样本，形成初始标记负样本集合B_neg；将标记为负样本的记录从软件产品缺陷报告集合B_left中移除，剩余的未标记样本集则作为目标样本集B_u；

步骤1.3：将初始标记正样本集合B_pos和初始标记负样本集合B_neg进行合并，形成初始训练样本集B_l；

步骤1.4：输出初始训练样本集B_l和未标记目标样本集B_u；

步骤2：迭代式自动投票分类：提出了一种迭代投票分类方法，其包括3个输入和3个输出；

输入：已标记训练样本集B_l；未标记目标数据集B_u；三个分类器；

输出：预测为正的样本集合Bppos；预测为负的样本集合Bpneg；不确定样本集合Bpu；

步骤2.1：模型训练：使用已标记的训练样本对三个分类器分别进行训练；

步骤2.2：投票式目标数据自动标记：通过步骤2.1中训练好的三个模型分别对目标数据进行预测，并将三个分类器同时标记为负的数据从目标数据转入训练样本中，扩充训练样本中负样本的数量；判定是否符合迭代退出条件，如果是，则进入步骤2.3；否则，进入步骤2.1；

步骤2.3：目标数据自动标记结果输出：提取三个分类器预测结果同时为“正”的数据，形成正样本集合；迭代中不断加入训练样本的数据形成负样本集合；剩余数据作为不确定样本集合；将三个集合分别输出到指定文件中。

2.根据权利要求1所述的一种基于投票机制的安全漏洞报告数据集构建方法，其特征在于步骤1中所述的莱文斯坦距离是编辑距离的一种，指从一个字符串变换到另一个字符串所需要的最少变化操作步骤；两个字符串a,b之间的莱文斯坦距离lev_a,b(|a|,|b|)计算公式如公式(1)所示：

其中，是指标函数，当a_i＝b_j时，等于0；否则，等于1；lev_a,b(i,j)是字符串a的前i个字符和字符串b的前j个字符之间的距离；i和j是步长为1的索引；通过计算剩余未标记缺陷报告B_left中的每条记录与已标记正样本B_pos之间的莱文斯坦距离。

3.根据权利要求1所述的一种基于投票机制的安全漏洞报告数据集构建方法，其特征在于步骤1.1中的选取前50条记录作为初始标记“负”样本。

4.根据权利要求1所述的一种基于投票机制的安全漏洞报告数据集构建方法，其特征在于步骤2中的3个分类器分别为多项式朴素贝叶斯MNB，逻辑回归LR和多层感知神经网络MLP。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011074609.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于投票机制的安全漏洞报告数据集构建方法在审

专利文献下载