[发明专利]一种基于加权词向量和神经网络的软件漏洞自动分类方法在审
| 申请号: | 202210614135.1 | 申请日: | 2022-05-31 |
| 公开(公告)号: | CN114881172A | 公开(公告)日: | 2022-08-09 |
| 发明(设计)人: | 王倩;高玉莹;任家东;张炳 | 申请(专利权)人: | 燕山大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 王忠良 |
| 地址: | 066004 河北*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 加权 向量 神经网络 软件 漏洞 自动 分类 方法 | ||
1.一种基于加权词向量和神经网络的软件漏洞自动分类方法,其特征在于包括以下步骤:
S1,对漏洞详细描述文本的数据预处理;
S2,漏洞文本经过预处理后,通过Word2Vec模型和N-TF-IDF算法结合构造加权词向量,完成文本向量表示;
S3,基于神经网络的TCNN-BiGRU漏洞分类模型实现漏洞自动分类,模型主要包括4个部分,分别为输入层、TextCNN结构、BiGRU结构和全连接层。
2.根据权利要求1所述的一种基于加权词向量和神经网络的软件漏洞自动分类方法,其特征在于步骤S1具体包括:
S11,分词及去除标点符号,通过识别漏洞描述文本中的空格和标点符号即可实现文本分词;
S12,大写字母转换成小写及词形还原,在这一步将英文单词的不同形式转换成统一的形式,便于之后的文本处理;
S13,去除停用词及特殊符号,停用词包括介词、冠词、代词等,特殊符号主要是文本中与上下文不存在语义联系的字符。
3.根据权利要求1所述的一种基于加权词向量和神经网络的软件漏洞自动分类方法,其特征在于步骤S2具体包括:
S21,通过Word2Vec模型训练文本集合中所有单词的词向量,它将每个词映射成低维空间上的稠密向量,表示出在语义层面上词与词之间的相关信息;
S22,对于训练集,生成训练集词汇表,其中包括所有训练集文本中不重复的单词,根据公式(1)-(3)计算词汇表中所有单词的N-TF-IDF权值,然后根据公式(4)结合Word2Vec词向量构成训练集词汇表中所有单词的加权词向量,从而将训练集所有文本表示成加权词向量构成的句子矩阵;
改进后的单词的文本内词频TF为类别内的词频与该类下所有词的词频的比值,如公式(1)所示:
其中,ni,j为单词ti在第j类出现的次数,∑mnm,j为第j类所有词出现的次数;改进后的IDF计算公式中引入类别文本数,如公式(2)所示:
其中,N为文本集合中文本总数,Ni,j为类别j中包含词ti的文本数,∑kNi,k为所有类别中包含词ti的文本数;
综合公式(1)和公式(2),词语在不同类别的文本中的重要性如公式(3)所示:
S23,对于验证集和测试集,分别生成验证集词汇表和测试集词汇表,如果单词在训练集词汇表中,其N-TF-IDF权值设为训练集中该单词的N-TF-IDF权值,如果单词没有在训练集词汇表中,其N-TF-IDF权值设为0.5,再结合Word2Vec词向量构成词汇表中所有单词的加权词向量,从而将验证集和测试集所有文本分别表示成加权词向量构成的句子矩阵。
4.根据权利要求3所述的一种基于加权词向量和神经网络的软件漏洞自动分类方法,其特征在于构造加权的Wrod2Vec词向量的方法如下:
通过N-TF-IDF算法得到矩阵M∈R|V|×|K|,其中|V|为数据集中所有不重复单词的数量,|K|为类别数量,即矩阵M为每个单词在不同类别的权重,选取每个单词在所有类别中的权重的最大值作为该单词最终的权重,与其Word2Vec词向量相乘,得到该单词的最终加权词向量,如公式(4)所示:
Weight_Vector(ti)=Word2Vec(ti)*max(N-TF-IDFi,j) (4)
其中,Weight_Vector(ti)为单词ti的加权词向量权重,Word2Vec(ti)为单词ti的Word2Vec词嵌入向量,max()函数为求得单词ti在所有类别中的权重的最大值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210614135.1/1.html,转载请声明来源钻瓜专利网。





