[发明专利]恶意网页识别模型、识别模型建立方法、识别方法及系统在审
申请号: | 202010026951.1 | 申请日: | 2020-01-10 |
公开(公告)号: | CN111259219A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 曲武 | 申请(专利权)人: | 北京金睛云华科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 沈阳友和欣知识产权代理事务所(普通合伙) 21254 | 代理人: | 杨群 |
地址: | 100088 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意 网页 识别 模型 建立 方法 系统 | ||
1.一种恶意网页识别模型的建立方法,其特征在于,包括如下步骤:
1)使用爬虫工具在网络中进行爬虫,将爬取到的网页内容数据样本人为鉴别,分为恶意网页内容数据样本和正常网页内容数据样本;
2)基于恶意网页内容数据的页面内容特征,构建恶意网页的网页特征,基于正常网页内容数据的页面内容特征,构建正常网页的网页特征;
3)使用SMOTE算法使恶意网页内容数据样本翻倍;
4)使用GAN算法对翻倍后的恶意网页内容数据样本进行增强,使恶意网页内容数据样本数量与正常网页内容数据样本数量均衡;
5)将增强后的恶意网页内容数据样本与正常网页内容数据样本合并后随机划分为三个部分,即训练集、测试集和验证集;
6)利用训练集和测试集训练5个分类器,即5层隐藏层ANN、随机森林、SVM、logistic回归以及带权重的KNN,利用5个分类器分别循环迭代,保留每个分类器F1值最高的,即对应生成5个模型,分别设为mdl_ann、mdl_rm、mdl_svm、mdl_logistic和mdl_wknn,分别设每个模型的初始权重为1/5,使用5个模型对训练分类器过程中产生的新的数据集进行预测,将预测结果使用下式形成初始融合模型:
1/5*mdl_ann.predict+1/5*mdl_rm.predict+1/5*mdl_svm.predict+1/5*
mdl_logistic.predict+1/5*mdl_wknn.predict;
7)利用验证集的数据样本,对初始融合模型进行权重调节,得到最高准确率的识别模型,用于恶意网页的识别;对初始融合模型进行权重调节的方法为:
将步骤5)中的验证集数据分别输入到步骤6)训练的5个分类器的模型中,进行分类,得到五个准确率,按高低排序,排序最高的分类器权重值增加0.1,相应的排序最低的分类器减去0.1,循环迭代30次,输出权重调节后最高准确率的模型,用于恶意网页的识别。
2.如权利要求1所述的一种恶意网页识别模型的建立方法,其特征在于,所述步骤2)中,根据如下页面内容特征来构建恶意网页的网页特征和正常网页的网页特征:
文档代码内执行程序的数量、隐藏的可执行远程代码出现的次数、不匹配的link标签出现的次数、页面中含有链接的数量、网页中的图片内容是否具有黄色暴力赌博游戏的内容、image标签数量、script标签数量、embed标签数量、object标签数量、window.open函数个数、document.location函数个数、document.cookie函数个数、windows.location函数个数;
每个恶意网页内容数据样本由恶意网页的网页特征代表,每个正常网页内容数据样本由正常网页的网页特征代表。
3.如权利要求1所述的一种恶意网页识别模型的建立方法,其特征在于,所述步骤3)中,使用SMOTE算法使恶意网页内容数据样本翻倍的方法为:
301)设恶意网页内容数据样本数量为T,取恶意网页内容数据的1个样本,设为i,样本i用特征向量xi表示,i∈{1,……,T}:
302)从T个样本中找到样本xi的k个近邻,表示为xi(near),near∈{1,……,k};
303)从k个近邻中随机选择一个样本xi(nn),再生成一个0-1之间的随机数ζ1,合成一个新样本xi1,xi1=xi+ζ1*(xi(nn)-xi);
304)将步骤303)重复进行N次,形成N个新样本,xinew,new∈{1,……,N};
305)对全部T个样本进行步骤302)至步骤304),得到NT个新样本,即对T个样本翻了N倍。
4.如权利要求1所述的一种恶意网页识别模型的建立方法,其特征在于,所述步骤4)中,采用WGAN-GP网络对翻倍后的恶意网页内容数据样本进行增强,使恶意网页内容数据样本数量与正常网页内容数据样本数量均衡。
5.如权利要求1所述的一种恶意网页识别模型的建立方法,其特征在于,所述步骤5)中,训练集、测试集和验证集的比例分别为70%、20%和10%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金睛云华科技有限公司,未经北京金睛云华科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010026951.1/1.html,转载请声明来源钻瓜专利网。