[发明专利]一种基于机器学习的Linux‑Kernel关联CVE智能预测方法在审

申请号：	201710261619.1	申请日：	2017-04-20
公开（公告）号：	CN107194260A	公开（公告）日：	2017-09-22
发明（设计）人：	龙清;吴敬征;李牧	申请（专利权）人：	中国科学院软件研究所
主分类号：	G06F21/57	分类号：	G06F21/57;G06F17/30
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	司立彬
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于机器学习 linux kernel 关联 cve 智能预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于机器学习的Linux-Kernel关联CVE智能预测方法，其步骤为：

1)从Linux讨论邮件数据发布网站上爬取设定时间段的数据并根据邮件讨论主题分类存储；

2)对爬取的数据进行标注，即按照讨论主题内容与CVE描述内容的吻合度将讨论主题标注为CVE相关或CVE不相关；

3)随机抽取多个标注为CVE相关的样本数据和多个标注为CVE不相关的样本数据，采用机器学习算法进行训练，得到一CVE漏洞预测模型；

4)利用该CVE漏洞预测模型对新的邮件数据进行自动化预测，得到该邮件数据的预测结果和结果说明。

2.如权利要求1所述的方法，其特征在于，步骤3)中，将进行训练的方法为：首先对样本数据预处理生成每条邮件数据的特征向量，然后采用机器学习算法对特征向量进行训练；其中，生成所述特征向量的方法为：首先建立一词袋，按照字典顺序排序；然后对每条邮件数据进行分词、停词，并将各邮件数据的分词按照分词的首字母顺序存储到该词袋中；然后统计词袋中每一个词在一条邮件数据中出现的频次，将该词袋中对应词的值置为该词出现的频次，得到该条邮件数据的特征向量。

3.如权利要求2所述的方法，其特征在于，所述机器学习算法为SVM算法。

4.如权利要求1所述的方法，其特征在于，所述预测结果分为CVE相关和CVE不相关；所述结果说明包括各个特征对预测结果造成的影响。

5.如权利要求1所述的方法，其特征在于，得到所述结果说明的方法为：对f(x)＝wx+b进行内积乘法并保存每一次中间乘积结果；其中，x为该新的邮件数据的特征向量，w为该特征向量x经CVE漏洞预测模型训练后得到的法向量，b为该特征向量x经CVE漏洞预测模型训练后得到的偏置项；然后根据中间乘积结果对应的分词以及分词在该新的邮件数据中出现次数确定判定结果带来的影响，即所述结果说明。

6.如权利要求1～5任一所述的方法，其特征在于，步骤2)中，根据CVE描述信息、CVE的参考链接中的文本描述信息以及邮件数据与CVE描述信息的文本相似度确定讨论主题内容与CVE描述内容的吻合度，对讨论主题进行标注。

7.如权利要求6所述的方法，其特征在于，使用LSI算法计算邮件数据与CVE描述信息的文本相似度。

8.如权利要求1所述的方法，其特征在于，所述步骤3)中，使用剩余标注的样本数据对该CVE漏洞预测模型进行测试和调优，得到优化后的CVE漏洞预测模型。

9.如权利要求1所述的方法，其特征在于，随机抽取的CVE不相关的样本数据为CVE相关的样本数据的2倍。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所，未经中国科学院软件研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710261619.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于机器学习的Linux‑Kernel关联CVE智能预测方法在审

专利文献下载