[发明专利]一种基于机器学习的Linux‑Kernel关联CVE智能预测方法在审
申请号: | 201710261619.1 | 申请日: | 2017-04-20 |
公开(公告)号: | CN107194260A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 龙清;吴敬征;李牧 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 linux kernel 关联 cve 智能 预测 方法 | ||
1.一种基于机器学习的Linux-Kernel关联CVE智能预测方法,其步骤为:
1)从Linux讨论邮件数据发布网站上爬取设定时间段的数据并根据邮件讨论主题分类存储;
2)对爬取的数据进行标注,即按照讨论主题内容与CVE描述内容的吻合度将讨论主题标注为CVE相关或CVE不相关;
3)随机抽取多个标注为CVE相关的样本数据和多个标注为CVE不相关的样本数据,采用机器学习算法进行训练,得到一CVE漏洞预测模型;
4)利用该CVE漏洞预测模型对新的邮件数据进行自动化预测,得到该邮件数据的预测结果和结果说明。
2.如权利要求1所述的方法,其特征在于,步骤3)中,将进行训练的方法为:首先对样本数据预处理生成每条邮件数据的特征向量,然后采用机器学习算法对特征向量进行训练;其中,生成所述特征向量的方法为:首先建立一词袋,按照字典顺序排序;然后对每条邮件数据进行分词、停词,并将各邮件数据的分词按照分词的首字母顺序存储到该词袋中;然后统计词袋中每一个词在一条邮件数据中出现的频次,将该词袋中对应词的值置为该词出现的频次,得到该条邮件数据的特征向量。
3.如权利要求2所述的方法,其特征在于,所述机器学习算法为SVM算法。
4.如权利要求1所述的方法,其特征在于,所述预测结果分为CVE相关和CVE不相关;所述结果说明包括各个特征对预测结果造成的影响。
5.如权利要求1所述的方法,其特征在于,得到所述结果说明的方法为:对f(x)=wx+b进行内积乘法并保存每一次中间乘积结果;其中,x为该新的邮件数据的特征向量,w为该特征向量x经CVE漏洞预测模型训练后得到的法向量,b为该特征向量x经CVE漏洞预测模型训练后得到的偏置项;然后根据中间乘积结果对应的分词以及分词在该新的邮件数据中出现次数确定判定结果带来的影响,即所述结果说明。
6.如权利要求1~5任一所述的方法,其特征在于,步骤2)中,根据CVE描述信息、CVE的参考链接中的文本描述信息以及邮件数据与CVE描述信息的文本相似度确定讨论主题内容与CVE描述内容的吻合度,对讨论主题进行标注。
7.如权利要求6所述的方法,其特征在于,使用LSI算法计算邮件数据与CVE描述信息的文本相似度。
8.如权利要求1所述的方法,其特征在于,所述步骤3)中,使用剩余标注的样本数据对该CVE漏洞预测模型进行测试和调优,得到优化后的CVE漏洞预测模型。
9.如权利要求1所述的方法,其特征在于,随机抽取的CVE不相关的样本数据为CVE相关的样本数据的2倍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710261619.1/1.html,转载请声明来源钻瓜专利网。