[发明专利]一种面向网络安全威胁情报的智能分类标签方法及系统有效
申请号: | 202110052560.1 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112732919B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 郭启全;江东 | 申请(专利权)人: | 中国科学院地理科学与资源研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06N3/0499;G06N3/0455;G06N3/088;G06N3/096;H04L9/40 |
代理公司: | 北京中和立达知识产权代理有限公司 11756 | 代理人: | 杨磊 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网络安全 威胁 情报 智能 分类 标签 方法 系统 | ||
1.一种面向网络安全威胁情报的智能分类标签方法,其特征在于,包括:
对网络威胁相关的社交网络文本数据进行文本数据预处理,生成预处理后社交网络文本数据;
根据所述预处理后社交网络文本数据,获取所述预处理后社交网络文本数据的向量表示形式,并保存为embedding向量;
将所述embedding向量输入BERT预训练模型进行训练,获得输出表征向量;
将所述输出表征向量输入前馈神经网络的全连接层和线性分类器,转化为和分类标签向量维度一致的最终向量表示;
根据交叉熵损失函数计算所述最终向量表示和分类标签向量真实值的交叉熵损失,更新模型参数直至模型收敛,获得威胁情报分类模型;
根据所述威胁情报分类模型对所述网络威胁相关的社交网络文本数据依次进行搜索、采集、预处理和分类标签,获得分类标签结果;
对所述分类标签结果进行信息抽取,并将抽取的分类信息推送给对应用户;
其中,所述根据交叉熵损失函数计算所述最终向量表示和分类标签向量真实值的交叉熵损失,更新模型参数直至模型收敛,获得威胁情报分类模型,具体包括:
根据交叉熵损失函数随机计算获取一个所述最终向量表示和分类标签向量真实值的交叉熵损失,作为初始损失值;
进行新损失值运算,所述新损失值运算为根据交叉熵损失函数计算所述最终向量表示和分类标签向量真实值的交叉熵损失,作为新的损失值;
反复进行新损失值运算,直到模型收敛或达到预设运算次数时,输出所述威胁情报分类模型,其中,所述模型收敛为在所述新损失值运算过程中连续K次所述新的损失值不大于所述初始损失值的情况,K为用户在建模前预先设定的收敛次数。
2.如权利要求1所述的一种面向网络安全威胁情报的智能分类标签方法,其特征在于,所述对网络威胁相关的社交网络文本数据进行文本数据预处理,生成预处理后社交网络文本数据,具体包括:
将所述网络威胁相关的社交网络文本数据划分成若干个顺序固定的单个句子;
删除所有的所述单个句子中的特殊符号,保存为删除特殊符号的单个句子;
对所有的所述删除特殊符号的单个句子利用WordPiece分词算法进行单词拆分,生成预处理后社交文本数据。
3.如权利要求1所述的一种面向网络安全威胁情报的智能分类标签方法,其特征在于,所述embedding向量包括token embedding向量、position embedding向量和segmentembedding向量。
4.如权利要求3所述的一种面向网络安全威胁情报的智能分类标签方法,其特征在于,所述根据所述预处理后社交网络文本数据,获取所述预处理后社交网络文本数据的向量表示形式,并保存为embedding向量,具体包括:
获取所述预处理后社交文本数据中的所述token embedding向量;
在所述token embedding向量中插入特殊分离符,用于分割所述预处理后社交文本数据;
在所述token embedding向量中插入特殊分隔符,用于分割所述预处理后社交文本数据中的不同句子;
利用所述segment embedding向量进行所述预处理后社交文本数据中的相邻2个句子的向量表示;
利用所述position embedding向量进行所述预处理后社交文本数据中的序列位置信息的表示。
5.如权利要求1所述的一种面向网络安全威胁情报的智能分类标签方法,其特征在于,所述将所述embedding向量输入BERT预训练模型进行训练,获得输出表征向量,具体包括:
将所述embedding向量输入所述BERT预训练模型;
利用所述BERT预训练模型进行第一步训练,所述第一步训练为通过随机遮蔽掉一个句子中的词,利用上下文进行预测,获得一个双向深度上下文语义信息;
利用所述BERT预训练模型进行第二步训练,所述第二步训练为预测一个句子的下一个句子,获得一个句子与句子之间的关系;
反复进行预先设定次数的所述第一步训练和所述第二步训练,根据所有的所述双向深度上下文语义信息和所有的所述句子与句子之间的关系生成所述输出表征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110052560.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:治疗阿尔茨海默症的组合物及其制备方法、应用
- 下一篇:一种铝锭生产用运输车