[发明专利]一种基于加权词向量和神经网络的软件漏洞自动分类方法在审

申请号：	202210614135.1	申请日：	2022-05-31
公开（公告）号：	CN114881172A	公开（公告）日：	2022-08-09
发明（设计）人：	王倩;高玉莹;任家东;张炳	申请（专利权）人：	燕山大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/289;G06N3/04;G06N3/08
代理公司：	石家庄众志华清知识产权事务所(特殊普通合伙) 13123	代理人：	王忠良
地址：	066004 河北***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于加权向量神经网络软件漏洞自动分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于加权词向量和神经网络的软件漏洞自动分类方法，其特征在于包括以下步骤：

S1，对漏洞详细描述文本的数据预处理；

S2，漏洞文本经过预处理后，通过Word2Vec模型和N-TF-IDF算法结合构造加权词向量，完成文本向量表示；

S3，基于神经网络的TCNN-BiGRU漏洞分类模型实现漏洞自动分类，模型主要包括4个部分，分别为输入层、TextCNN结构、BiGRU结构和全连接层。

2.根据权利要求1所述的一种基于加权词向量和神经网络的软件漏洞自动分类方法，其特征在于步骤S1具体包括：

S11，分词及去除标点符号，通过识别漏洞描述文本中的空格和标点符号即可实现文本分词；

S12,大写字母转换成小写及词形还原，在这一步将英文单词的不同形式转换成统一的形式，便于之后的文本处理；

S13，去除停用词及特殊符号，停用词包括介词、冠词、代词等，特殊符号主要是文本中与上下文不存在语义联系的字符。

3.根据权利要求1所述的一种基于加权词向量和神经网络的软件漏洞自动分类方法，其特征在于步骤S2具体包括：

S21，通过Word2Vec模型训练文本集合中所有单词的词向量，它将每个词映射成低维空间上的稠密向量，表示出在语义层面上词与词之间的相关信息；

S22，对于训练集，生成训练集词汇表，其中包括所有训练集文本中不重复的单词，根据公式(1)-(3)计算词汇表中所有单词的N-TF-IDF权值，然后根据公式(4)结合Word2Vec词向量构成训练集词汇表中所有单词的加权词向量，从而将训练集所有文本表示成加权词向量构成的句子矩阵；

改进后的单词的文本内词频TF为类别内的词频与该类下所有词的词频的比值，如公式(1)所示：

其中，n_i,j为单词t_i在第j类出现的次数，∑_mn_m,j为第j类所有词出现的次数；改进后的IDF计算公式中引入类别文本数，如公式(2)所示：

其中，N为文本集合中文本总数，N_i,j为类别j中包含词t_i的文本数，∑_kN_i,k为所有类别中包含词t_i的文本数；

综合公式(1)和公式(2)，词语在不同类别的文本中的重要性如公式(3)所示：

S23，对于验证集和测试集，分别生成验证集词汇表和测试集词汇表，如果单词在训练集词汇表中，其N-TF-IDF权值设为训练集中该单词的N-TF-IDF权值，如果单词没有在训练集词汇表中，其N-TF-IDF权值设为0.5，再结合Word2Vec词向量构成词汇表中所有单词的加权词向量，从而将验证集和测试集所有文本分别表示成加权词向量构成的句子矩阵。

4.根据权利要求3所述的一种基于加权词向量和神经网络的软件漏洞自动分类方法，其特征在于构造加权的Wrod2Vec词向量的方法如下：

通过N-TF-IDF算法得到矩阵M∈R^|V|×|K|，其中|V|为数据集中所有不重复单词的数量，|K|为类别数量，即矩阵M为每个单词在不同类别的权重，选取每个单词在所有类别中的权重的最大值作为该单词最终的权重，与其Word2Vec词向量相乘，得到该单词的最终加权词向量，如公式(4)所示：

Weight_Vector(t_i)＝Word2Vec(t_i)*max(N_-TF-IDF_i,j) (4)

其中，Weight_Vector(t_i)为单词t_i的加权词向量权重，Word2Vec(t_i)为单词t_i的Word2Vec词嵌入向量，max()函数为求得单词t_i在所有类别中的权重的最大值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于燕山大学，未经燕山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210614135.1/1.html，转载请声明来源钻瓜专利网。

上一篇：互联网网页显示管理方法、装置、计算机设备
下一篇：一种通过眼周涂抹达到净化眼球的眼霜及制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于加权词向量和神经网络的软件漏洞自动分类方法在审

专利文献下载