[发明专利]一种面向网络安全领域的命名实体识别方法有效
申请号: | 202010464122.1 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111709241B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 秦涛;李致远;王平辉;管晓宏 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/126;G06F40/117;G06F40/216;G06F16/951;G06N3/045;G06N3/0442 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 贺小停 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网络安全 领域 命名 实体 识别 方法 | ||
1.一种面向网络安全领域的命名实体识别方法,其特征在于,包括以下步骤:
步骤1,根据爬虫程序,分别从漏洞信息库、安全论坛和企业应急响应中心获取相关的网络安全文本数据并存入数据库;
步骤2,使用BIO标记模式对网络安全文本数据按一定比例进行小规模标记,标记文本数据用于训练网络安全命名实体识别初始模型;其余大规模未标记文本数据用于模型的主动学习和自学习阶段;
步骤3,根据ALBERT预训练语言模型,针对一个包含了互不相同的中英文字符、标点符号及特殊字符的词汇表文件构建了字典映射,以句子为单位,根据字典映射将输入文本序列x=(,,…,)转化为输入id序列;特殊字符为[CLS]和[SEP],分别表示句子的开始和结束;
步骤4,构建网络安全命名实体识别的深度神经网络模型,模型分为字向量编码层,语义编码层,标签解码层三部分:首先利用预训练语言模型ALBERT训练得到输入文本序列中包含全局语义信息且随语境动态变化的初始字符向量;然后利用Bi-LSTM双向长短期记忆网络获取字符向量的位置信息和上下文信息;最后利用CRF条件随机场作为解码层输出输入文本序列概率最大的标签序列=(,,…,),根据标签序列得到输入文本序列包含的实体信息;
步骤5,使用BIO模式标记的文本数据训练上述模型,通过对比训练文本数据中的标签序列和模型预测得到的最大概率标签序列的差异,采用对数最大似然估计得到损失函数,利用梯度下降法,优化模型参数,使得正确的标签序列概率最大;
步骤4,具体包括以下步骤:
步骤4.1:首先将输入文本序列对应的输入id序列送入ALBERT预训练网络模型进行编码,将每个字符的id转换成对应的字符嵌入token embedding和位置嵌入positionembedding,连接两者构成字嵌入Embedding,然后将句子中所有字符对应的字嵌入Embedding构成字嵌入矩阵送入Muti-Head Attention多头注意力机制层和Feed Forward前馈神经网络层,最终输出各字符融合了全局语义信息且随语境动态变化的初始字符向量;
步骤4.2:将ALBERT预训练网络模型输出的初始字符向量送入Bi-LSTM双向长短期记忆网络,训练得到各个字符的包含序列位置信息和上下文信息的语义向量表示;
步骤4.3:将语义编码层输出的各字符的向量表示送入CRF条件随机场,学习各字符对应标签的分数,以及标签之间的转移分数,输出概率最大的标签序列作为当前训练语句的标记,根据标签序列提取出输入文本序列包含的实体信息。
2.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法,其特征在于,步骤1中,设计爬虫程序,分别从中国国家信息安全漏洞库CNNVD、FreeBuf安全论坛、深信服安全中心爬取获得网络安全文本数据。
3.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法,其特征在于,步骤2中,本文主要识别的是网络安全文本数据中的漏洞编号、漏洞名称、攻击类型、组织名称、软件名称和地名6类安全实体;针对这6类安全实体,采用BIO标记模式进行标记。
4.根据权利要求3所述的一种面向网络安全领域的命名实体识别方法,其特征在于,具体标记为:B-表示该字符是某一类命名实体的第一个字符,I-表示该字符是某一类命名实体的中间字符,O表示该字符不属于任何一类命名实体;上述类型的网络安全实体是一些专业词汇、中英文混合词汇或一词多义词汇。
5.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法,其特征在于,步骤2中,基于主动学习的不确定采样策略,用训练完成的模型预测大规模未标注语料的标签序列,并计算其置信度;选择置信度最小的文本数据,进行人工标记添加至标记文本数据;同时结合自学习加强模型性能,将选择置信度最大且有效的文本数据,经过机器标记添加至标记文本数据;根据主动学习和自学习的学习方式,对具有一定标记价值和训练价值的未标记文本数据进行了标记,更新标记文本数据,迭代训练上述模型直至满足相应的学习终止条件,最终得到高性能网络安全实体识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010464122.1/1.html,转载请声明来源钻瓜专利网。