[发明专利]一种基于FastText的威胁情报自动化标注方法在审

申请号：	201811587862.3	申请日：	2018-12-25
公开（公告）号：	CN111435375A	公开（公告）日：	2020-07-21
发明（设计）人：	翟江涛;徐留杰;孙中军	申请（专利权）人：	南京知常容信息技术有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F40/289;G06F40/216
代理公司：	泉州市宽胜知识产权代理事务所(普通合伙) 35229	代理人：	廖秀玲
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 fasttext 威胁情报自动化标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于FastText的威胁情报自动化标注方法，其特征在于：依次包括如下步骤：(1)建立威胁情报自动化标注模型；(2)利用自动化标注模型对威胁情报进行自动化标注；

其中，所述步骤(1)的具体流程为：

(1.1)、设置样本数据采集器：使用网络爬虫技术，捕获各大威胁情报网站的威胁情报数据，结合邮件解析技术，通过订阅相关情报邮件，解析邮件内容获取威胁情报数据；

(1.2)、设置数据处理器：利用数据处理器对步骤(1.1)中获取到的数据进行处理，即将每条威胁情报的各个模块拆分成字段，把原始的标签提取出来单独分作一个字段；

(1.3)、构建威胁情报词库：在原有的词库基础上添加威胁情报的专有词汇，提高标注结果的准确性；

(1.4)、设置文本分割器：利用文本分割器，对威胁情报内容和描述部分进行分词处理；

(1.5)、设置摘要生成器：对于步骤(1.4)分好的词列表进行分析得到相关性较高的词组，通过建立抽象的语意表示，使用自然语言生成技术，形成摘要；

(1.6)、训练模型：利用FastText方法对步骤(1.5)生成的词组进行训练，得到威胁情报自动化标注模型；

其中，所述步骤(2)即是利用Fasttext训练好的模型对威胁情报进行自动化标注，具体包括如下步骤：

(2.1)、设置情报采集器：通过网络爬虫和邮件解析等方式采集威胁情报，需要应对威胁情报网站反爬虫策略，以及设计邮件解析软件；

(2.2)、设置数据处理器：提取出步骤(2.1)获取的威胁情报中的描述以及文本内容，作为测试数据；

(2.3)、设置文本分割器：利用Jieba算法结合步骤(1.3)所构建的威胁情报词库对威胁情报文本进行分词处理，得到对应的词列表；

(2.4)、设置摘要生成器：利用Textrand算法对步骤(2.3)生成的词列表进行分析，通过建立抽象的语意表示，使用自然语言生成技术，形成摘要；

(2.5)、判断标注结果：将步骤(2.4)生成的摘要输入到步骤(1.6)所述的威胁情报自动化标注模型中，输出标签，并与步骤(1.2)中获取到的标签进行对比，若相同则标注准确，不同则标注错误。

2.根据权利要求1所述的基于FastText的威胁情报自动化标注方法其特征在于：所述步骤(1.1)中的样本数据采集器即网络爬虫和邮件解析软件。

3.根据权利要求1所述的基于FastText的威胁情报自动化标注方法其特征在于：所述步骤(1.4)中的文本分割器即基于Jieba算法和威胁情报词库的文本切割软件。

4.根据权利要求1所述的基于FastText的威胁情报自动化标注方法其特征在于：所述步骤(1.5)中的摘要生成器即基于Textrank算法的自动摘要生成软件。

5.根据权利要求1所述的基于FastText的威胁情报自动化标注方法其特征在于：所述步骤(1.6)中的训练自动化标注模型即基于FatText算法的自动文本分类软件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京知常容信息技术有限公司，未经南京知常容信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811587862.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载