[发明专利]一种基于FastText的威胁情报自动化标注方法在审
申请号: | 201811587862.3 | 申请日: | 2018-12-25 |
公开(公告)号: | CN111435375A | 公开(公告)日: | 2020-07-21 |
发明(设计)人: | 翟江涛;徐留杰;孙中军 | 申请(专利权)人: | 南京知常容信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/289;G06F40/216 |
代理公司: | 泉州市宽胜知识产权代理事务所(普通合伙) 35229 | 代理人: | 廖秀玲 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 fasttext 威胁 情报 自动化 标注 方法 | ||
本发明公开一种基于FastText的威胁情报自动化标注方法,依次包括以下步骤:1(1)建立情报自动化标注模型;(2)利用自动化标注模型对威胁情报进行自动化标注。本发明通过采集海量的威胁情报,并利用分词、词频统计等技术构建专属于威胁情报的词库,与Fasttext文本分类器相结合,可以得到较高的查全率和查准率,实现对威胁情报的自动化标注。
技术领域
本发明涉及网络与信息安全技术,具体涉及一种基于FastText的针对网络安全威胁情报的自动化标注方法。
背景技术
威胁情报的概念最初是在2012年在美国政府发布的《大数据研究和发展倡议》中提出来的。威胁情报是将孤立的、杂乱无章的威胁信息转化为具有固定格式的威胁情报,从而能够对威胁信息有一个规范化的整理,便于之后对威胁数据的深度分析。然而目前各个威胁情报组织对于威胁情报的理解不统一,这就导致了网络上威胁情报的形态各异。为了提高查询和分析的效率,越来越多的研究人员开始致力于找到一种针对威胁情报的自动化标注方法,并取得了诸多研究成果。
基于FastText的威胁情报标注方法是一种崭新的威胁情报标注方法,FastText是一种Facebook AI Research在16年推出的一个文本分类器。其特点就是fast。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保持分类效果的同时,大大缩短了训练时间。
FastText方法包含三部分:模型架构、层次Softmax和N-gram特征。FastText模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。FastText在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。FastText模型架构和Word2Vec中的CBOW模型很类似。不同之处在于,FastText预测标签,而CBOW模型预测中间词。
第一部分:FastText的模型架构类似于CBOW,两种模型都是基于HierarchicalSoftmax,都是三层架构:输入层、隐藏层、输出层。CBOW模型又基于N-gram模型和BOW模型,此模型将W(t-N+1)……W(t-1)W(t-N+1)……W(t-1)作为输入,去预测W(t),FastText的模型则是将整个文本作为特征去预测文本的类别。
第二部分:层次之间的映射,将输入层中的词和词组构成特征向量,再将特征向量通过线性变换映射到隐藏层,隐藏层通过求解最大似然函数,然后根据每个类别的权重和模型参数构建Huffman树,将Huffman树作为输出。
第三部分:FastText的N-gram特征:常用的特征是词袋模型(将输入数据转化为对应的Bow形式)。但词袋模型不能考虑词之间的顺序,因此FastText还加入了N-gram特征。例如“我爱她”这句话中的词袋模型特征是“我”,“爱”,“她”。这些特征和句子“她爱我”的特征是一样的。如果加入2-Ngram,第一句话的特征还有“我-爱”和“爱-她”,这两句话“我爱她”和“她爱我”就能区别开来了。当然,为了提高效率,我们需要过滤掉低频的N-gram。
在FastText中一个低维度向量与每个单词都相关。隐藏表征在不同类别所有分类器中进行共享,使得文本信息在不同类别中能够共同使用。这类表征被称为词袋(bag ofwords)(此处忽视词序)。在FastText中也使用向量表征单词N-gram来将局部词序考虑在内,这对很多文本分类问题来说十分重要。
基于FastText的威胁情报自动化标注方法的主要优势是:(1)支持多语言表达:由于国内的威胁情报还处在起步阶段,所以有很多情报来源于国外威胁情报,FastText方法能够支持包括英语、德语、西班牙语、法语等多国语言.(2)适合大型数据+高效的训练速度:在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇。
目前尚未公开这种威胁情报自动化标注方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京知常容信息技术有限公司,未经南京知常容信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811587862.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电机的控制方法及控制系统
- 下一篇:一种机器人检测障碍的方法及机器人