[发明专利]一种轻量化的安全告警名称标准化分类方法及系统在审
申请号: | 202211450235.1 | 申请日: | 2022-11-19 |
公开(公告)号: | CN115757783A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 刘鑫;刘奇;刘剑群;孟熹;吴朝亮;赵毅;雷加伟;许佳行;张向瑞;王亚洲;宫冠鹏;邢佳佳;王学文;陈鹏;汪钰峻;吴嘉宇;张简;刘晓恒 | 申请(专利权)人: | 天翼电子商务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/284;G06F40/30;G06F18/25;G06N3/042;G06N3/088 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 量化 安全 告警 名称 标准化 分类 方法 系统 | ||
本申请提出了一种轻量化的安全告警名称标准化分类方法及系统,涉及数据挖掘和机器学习领域。一种轻量化的安全告警名称标准化分类方法包括:对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征;通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征;通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至l ightgbm进行训练,最终产生信息量更全的特征组。能够实现对各种厂商以及环境的告警名称进行统一标准化分类。
技术领域
本申请涉及数据挖掘和机器学习领域,具体而言,涉及一种轻量化的安全告警名称标准化分类方法及系统。
背景技术
随着互联网的快速发展,互联网的网络安全日益重要,各大安全厂商也产生了数种安全产品,这些不同厂商的产品也为网络安全建模产生了重要的数据来源。但是不同的厂商数据格式名称都不一样,有着不同的标准与名称,因此研发一种数据标准化的技术从而把不同厂商之间的数据进行统一标准化刻不容缓。以安全告警名称标准化为切入点,安全告警名称目前存在着中英文混合,领域语料库数据较小等问题。
目前在该领域常用的告警名称标准化方案通常是基于安全专家总结的关键词匹配等方法进行标准化分类。此方案对于已经熟悉的安全告警名称可以很好地识别,但是对于新厂商的安全告警名称识别起来会更困难。为解决此问题有引入BERT模型进行语义分析分类的方案,但是此方案也会存在一些问题,如跨语言预训练模型的缺失、领域语料库的稀少、输入的单一性、线上推理成本较高等。
发明内容
本申请的目的在于提供一种轻量化的安全告警名称标准化分类方法,其能够汲取安全专家积累的安全告警名称分类经验,自动地处理见过的与没见过的安全告警名称,把它们进行标准化的归类,从而实现对各种厂商以及环境的告警名称进行统一标准化分类。
本申请的另一目的在于提供一种轻量化的安全告警名称标准化分类系统,其能够运行一种轻量化的安全告警名称标准化分类方法。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供一种轻量化的安全告警名称标准化分类方法,其包括对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征;通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征;通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至l ightgbm进行训练,最终产生信息量更全的特征组。
在本申请的一些实施例中,上述对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征包括:根据安全专家的经验总结出告警类别特定的特征判别点,通过提取相应的特征辅助模型学习。
在本申请的一些实施例中,上述通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征包括:利用分词工具加词频统计算法TF-IDF,进行快速全局地统计出相关告警名称文档的统计特征,同时利用SVD算法进行降维提高数据的信息密度,防止前置算法产生的稀疏矩阵带来的维度灾难,降低下游模型的数据压力。
在本申请的一些实施例中,上述通过word2vec网络进行了上下文语义学习,对原始数据的表征包括:无监督词向量预训练网络word2vec训练安全告警领域的语料库,进行上下文语义特征提取,与前面的统计特征、人工特征进行互相弥补,对原始数据的表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼电子商务有限公司,未经天翼电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211450235.1/2.html,转载请声明来源钻瓜专利网。