[发明专利]基于Transformer的应用层恶意有效负载检测方法、系统、设备及介质有效
申请号: | 202110670903.0 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113343235B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 黄惟;康占英;马小龙;王菡;赵颖;王心远;胡坤霖 | 申请(专利权)人: | 长沙市智为信息技术有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 熊开兰 |
地址: | 410000 湖南省长沙市高新区*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 应用 恶意 有效 负载 检测 方法 系统 设备 介质 | ||
1.一种基于Transformer的应用层恶意有效负载检测方法,其特征在于,包括以下步骤:
步骤1、构建应用层用户请求样本集D,其中每个样本di包括一条应用层用户请求xi及其恶意有效负载信息,恶意有效负载信息包括一组或多组具体恶意有效负载pij及其类别yij;下标i用于区别不同的应用层用户请求,下标j用于区别不同类别的恶意有效负载;
步骤2、将D中应用层用户请求样本di进行数据预处理,得到由若干词元组成的用户请求及与各词元的类别真实标签下标中的l用于区别不同的词元;
步骤3、将数据预处理后应用层用户请求样本集中的输入预先构建的基于Transformer的深度神经网络模型M,计算得到各词元的类别预测概率ail;
步骤4、将各词元的真实类别标签和预测类别概率ail代入损失函数L计算模型损失值,根据优化算法更新模型M中的可训练参数;
步骤5、重复步骤3~步骤4,直到满足模型训练结束条件,得到训练好的模型
步骤6、对于待检测的应用层用户请求x′,先进行数据预处理得到结果再将输入训练好的模型计算得到各词元的类别预测概率a,进而得到各词元的类别预测结果;
步骤7、将待检测的应用层用户请求x′中连续的具有相同类别预测结果的词元合并,合并形成的一组或多组片段即为该请求x′的恶意有效负载信息。
2.根据权利要求1所述的基于Transformer的应用层恶意有效负载检测方法,其特征在于,所述步骤2中,对应用层用户请求的数据预处理包括以下步骤:
步骤2.1,对应用层用户请求进行数据清洗,清洗方法为:先对用户请求进行深度包检测得到请求报文;再进行解码、删除错误及重复数据、填充缺失值操作;
步骤2.2:对清洗后的请求报文进行文本编码,编码方法为:先以字符为单位对请求报文进行分词;依次处理各词元,处理过程为先计算该词元的ASCII值,记该词元的ASCII值为k,再构建总维数为K且第k维值为1、其余维值为0的向量,最后将xi中该词元替换为该向量;xi的所有词元处理完后,得到预处理后的用户请求
步骤2.3:对应用层用户请求xi的恶意有效负载信息进行标签处理,处理方法为:先创建维数为xi总字符长度的零向量再依次处理具体恶意有效负载pij:在xi中查找pij获得恶意有效负载pij的起始字符位置s及终止字符位置e,将中第s位到第e位的数值修改为yij;最终得到预处理后各词元的类别真实标签
3.根据权利要求1所述的基于Transformer的应用层恶意有效负载检测方法,其特征在于,在将D中应用层用户请求样本di进行数据预处理,得到数据预处理后应用层用户请求样本集之后,先对样本集进行数据采样得到类别平衡的样本集再使用样本集中的用户请求作为步骤3训练模型M的输入数据;所述对样本集进行数据采样包括以下步骤:
步骤A1:确定样本数量阈值t,进而将样本总量小于t的负载类别判定为少数类,将样本总量大于等于t的负载类别判定为多数类;
步骤A2:确定各负载类别的目标采样数N;
步骤A3:对于多数类的负载类别,采用随机欠采样方法进行数据采样,每个多数类的负载类别均保留N个样本;
步骤A4:对于少数类的负载类别,采用基于生成规则的过采样方法进行数据采样,每个少数类的负载类别均包括N个样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙市智为信息技术有限公司,未经长沙市智为信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110670903.0/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法