[发明专利]一种基于PCA和XGBoost融合的业务类型识别方法在审
申请号: | 202111202293.8 | 申请日: | 2021-10-15 |
公开(公告)号: | CN114048795A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 刘旭;胡俊华;朱晓荣;杨龙祥;朱洪波;江婷 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pca xgboost 融合 业务 类型 识别 方法 | ||
1.一种基于PCA和XGBoost融合的业务类型识别方法,其特征在于,包括以下步骤:
步骤S1、采集带有标签的网络流量数据集,网络流量数据集的业务类型包括HTTP、NTP、DNS、QQ、微信、视频和邮件;
步骤S2、对步骤S1中的网络流量数据集进行数据清洗和特征提取,从而得到含有多维特征的网络流量数据集;
步骤S3、利用主成分分析特征降维的方法将步骤S2中的多维特征简化成低维特征,得到带标签的低维数据集;
步骤S4、从步骤S3中带标签的低维数据集中选出影响衡量业务类型的相关性高的关键性能指标,该关键性能指标组成带标签的数据集,该数据集分为训练集和测试集,将训练集输入到极限梯度提升XGBoost分类模型进行训练,并采用改进的参数调优的方法对该XGBoost分类模型的学习率γ和正则化参数λ进行调优,得到最适合该网络流量数据集的学习率γ和正则化参数λ,并对参数调优后的XGBoost分类模型进行测试,得到训练好的极限梯度提升XGBoost分类模型;
学习率γ和正则化参数λ进行调优的方法具体如下:
步骤S4.1、极限梯度提升XGBoost分类模型为:
其中,T指叶节点的数量,obj指目标函数,Gj指目标函数在第j个叶节点泰勒展开式中的一阶导,Hj指目标函数在第j个叶节点泰勒展开的二阶导;
步骤S4.2、对步骤S4.1中的学习率γ和正则化参数λ进行参数调优:
步骤S4.2.1、设置学习率γ和正则化参数λ的各自的搜索空间Φ及搜索步长μ,设置如下所示:
γ=(γstart,γend,μγ)
λ=(λstart,λend,μλ)
其中,γstart和γend分别为学习率γ的搜索空间Φγ的上边界和下边界,μγ为学习率γ的搜索步长;λstart和λend分别为正则化参数λ的搜索空间Θλ上边界和下边界,μλ为正则化参数λ的搜索步长;
步骤S4.2.2、根据设置的搜索空间和搜索步长,生成二维搜索参数组矩阵HS,定义如下:
其中,p是整数,q是整数,
步骤S4.2.3、针对步骤S4.2.2中的HS中每个参数组,评估XGBoost分类模型在每个参数组的平均分类精度,选出评估出的平均分类精度最高的参数组,若平均分类精度最高的参数组为1个则该参数组为选取的参数组,若评估平均分类精度最高的参数组有多个,则选取这多个参数组中λstart+qμλ最小的一个参数组;
步骤S4.2.4、步骤S4.2.3选取的参数组中的λstart+qμλ、γstart+pμγ即为XGBoost分类模型对应步骤S3中带标签的低维数据集的最优的学习率γ和正则化参数λ;
步骤S5、将待测的网络流量数据集输入到步骤S4中的极限梯度提升XGBoost分类模型,得到业务类型分类结果。
2.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法,其特征在于,步骤S2中的多维特征F,具体表示方式为:
F=[f1,f2,f3…fd]
F含有d个特征的向量,fi表示第i个关键特征指标,d≥i≥1,对fi的最大值分别进行归一化处理,处理的具体方式为:
max(fi)是第i个关键特征指标出现的最大值,是经过归一化处理后的第i个关键特征指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111202293.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:底吹风口的布置方法及底吹转炉
- 下一篇:新能源场站储能配置方法及装置