[发明专利]一种轻量化的安全告警名称标准化分类方法及系统在审
申请号: | 202211450235.1 | 申请日: | 2022-11-19 |
公开(公告)号: | CN115757783A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 刘鑫;刘奇;刘剑群;孟熹;吴朝亮;赵毅;雷加伟;许佳行;张向瑞;王亚洲;宫冠鹏;邢佳佳;王学文;陈鹏;汪钰峻;吴嘉宇;张简;刘晓恒 | 申请(专利权)人: | 天翼电子商务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/284;G06F40/30;G06F18/25;G06N3/042;G06N3/088 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 量化 安全 告警 名称 标准化 分类 方法 系统 | ||
1.一种轻量化的安全告警名称标准化分类方法,其特征在于,包括:
对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征;
通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征;
通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;
通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至lightgbm进行训练,最终产生信息量更全的特征组。
2.如权利要求1所述的一种轻量化的安全告警名称标准化分类方法,其特征在于,所述对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征包括:
根据安全专家的经验总结出告警类别特定的特征判别点,通过提取相应的特征辅助模型学习。
3.如权利要求1所述的一种轻量化的安全告警名称标准化分类方法,其特征在于,所述通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征包括:
利用分词工具加词频统计算法TF-IDF,进行快速全局地统计出相关告警名称文档的统计特征,同时利用SVD算法进行降维提高数据的信息密度,防止前置算法产生的稀疏矩阵带来的维度灾难,降低下游模型的数据压力。
4.如权利要求1所述的一种轻量化的安全告警名称标准化分类方法,其特征在于,所述通过word2vec网络进行了上下文语义学习,对原始数据的表征包括:
无监督词向量预训练网络word2vec训练安全告警领域的语料库,进行上下文语义特征提取,与前面的统计特征、人工特征进行互相弥补,对原始数据的表征。
5.如权利要求1所述的一种轻量化的安全告警名称标准化分类方法,其特征在于,所述通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至lightgbm进行训练,最终产生信息量更全的特征组包括:
对上游模块产生的三种特征,此模块会自动进行特征之间的交叉与交互,最终产生信息量更全的特征组,然后将特征输入到lightgbm算法进行训练,损失函数为交叉熵,设置初始学习率1*10-2和最低学习率1*10-4,按照预设轮次进行学习率减半进行学习率衰减,最终训练达到阈值后结束训练。
6.一种轻量化的安全告警名称标准化分类系统,其特征在于,包括:
特征处理模块,用于对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征,通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征,通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;
模型训练模块,用于通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至lightgbm进行训练,最终产生信息量更全的特征组。
7.如权利要求6所述的一种轻量化的安全告警名称标准化分类系统,其特征在于,包括:
用于存储计算机指令的至少一个存储器;
与所述存储器通讯的至少一个处理器,其中当所述至少一个处理器执行所述计算机指令时,所述至少一个处理器使所述系统执行:特征处理模块及模型训练模块。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼电子商务有限公司,未经天翼电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211450235.1/1.html,转载请声明来源钻瓜专利网。