[发明专利]一种基于BiLSTM-CRF的工业信息安全指纹挖掘方法在审
| 申请号: | 202210299549.X | 申请日: | 2022-03-25 |
| 公开(公告)号: | CN114691755A | 公开(公告)日: | 2022-07-01 |
| 发明(设计)人: | 黄河燕;张艳;曹健;袁燕 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F40/242;G06F40/295;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 重庆信必达知识产权代理有限公司 50286 | 代理人: | 陈小东 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bilstm crf 工业 信息 安全 指纹 挖掘 方法 | ||
1.一种基于BiLSTM-CRF的工业信息安全指纹挖掘方法,其特征是:通过使用BiLSTM-CRF模型,即长短期记忆神经网络和条件随机场模型对工业系统安全指纹进行有监督的训练及识别,具体包括以下步骤:
S1、有监督数据标注:利用已有安全指纹特征库对网络数据进行标注,构建有监督的训练数据;
S2、模型训练,根据步骤S1,对BiLSTM-CRF模型进行训练,得到完成训练的模型;
S3、根据步骤S2,对完成训练的模型进行接口封装,使其在使用阶段可直接通过接口进行访问和调用,并获得指纹识别的结果。
2.根据权利要求1所述的一种基于BiLSTM-CRF的工业信息安全指纹挖掘方法,其特征是:步骤S1的具体方法为:
1)采用自然语言浅层分析工具对网络数据进行分词、去停用词方面的预处理;
2)然后,将指纹特征库中的指纹串与网络数据进行检索匹配,对检索得到的指纹串用序列BIO标注方法为每个单词赋予对应的标签。
3.根据权利要求1所述的一种基于BiLSTM-CRF的工业信息安全指纹挖掘方法,其特征是:步骤S2中的模型训练的过程为:
(1)在BiLSTM-CRF模型的输入层融合包括词典、词向量在内的多级特征,并综合考虑字粒度和词粒度两个维度,有效地抽取中文文本中的词边界信息,对命名实体词边界的划分达到准确的效果;
(2)在BiLSTM-CRF模型的编码层,在序列标注任务中,利用双向LSTM网络,通过前向和反向传播,有效地访问并利用过去和未来的长距离输入特征,实现特征抽取;
(3)在BiLSTM-CRF模型的编码层,对编码层的输出进行标签分类,使用CRF模型作为解码层,并将双向LSTM的输出矩阵作为CRF模型中的发射概率矩阵,再通过训练学习CRF层的转移概率矩阵为标签之间添加约束,对命名实体达到准确的识别效果。
4.根据权利要求1所述的一种基于BiLSTM-CRF的工业信息安全指纹挖掘方法,其特征是:步骤S3中获得指纹识别的结果的具体方法为:
(1)通过接口输入待识别的序列数据;
(2)自动地使用完成训练的模型对数据进行序列标注;
(3)根据标注标签整合指纹识别结果,并进行输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210299549.X/1.html,转载请声明来源钻瓜专利网。





