[发明专利]基于自适应异构多分类模型的钓鱼网站检测方法和系统有效
申请号: | 201810549417.1 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108965245B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 臧天宁;强倩;杜飞;周渊 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 异构多 分类 模型 钓鱼 网站 检测 方法 系统 | ||
1.一种基于自适应异构多分类模型的钓鱼网站检测方法,其特征在于,所述方法包括:
步骤1,对相同类别的钓鱼网站样本集D,采用留一法交叉验证进行训练集和测试集的分类;设第j个训练集表示为Dj,对应的第j个测试集表示为每个样本包含样本记录和样本标签;样本记录中包含网站的URL和网页信息,样本标签用于标记是否为钓鱼网站;j为正整数;
步骤2,通过线性加成构建自适应异构多分类模型H,如下所示:
其中,T为基分类算法的个数,hi为第i种基分类算法,ωi为第i种基分类算法的权重参数,为调整因子,x表示样本记录;
基分类算法包括:h1代表域名词素特征分类算法,是根据域名词素判断是否为钓鱼网站;h2代表主题索引特征分类算法,是根据网页中主题标签下内容判断是否为钓鱼网站;h3代表内容相似性特征分类算法,是根据网页中内容标签下内容进行相似性比较判断是否为钓鱼网站;h4代表结构样式特征分类算法,是根据源代码的结构判断是否为钓鱼网站;h5代表视觉规则特征分类算法,是根据网页的图标、配色、图片判断是否为钓鱼网站;
所述的基分类算法表征为线性函数,各分类算法的参数为独立同分布;
步骤3,多分类模型H的输入是各基分类算法的输入,输出是样本标签;对于训练集Dj,从每个样本的样本记录中提取每个基分类算法相应的特征作为输入;
步骤4,基于训练集Dj,采用机器学习算法对各基分类算法的参数以及多分类模型H中的ωi,进行训练和参数求解;
采用极大似然估计法求解各基分类算法的参数,采用最大期望算法对多分类模型H中的参数ωi,进行迭代求解;
步骤5,在测试集上对多分类模型H进行测试和优化,直到各基分类算法的参数和多分类模型H中的参数ωi,收敛,对多分类模型H的机器学习算法结束;
步骤6,由最终得到的各基分类算法的参数和多分类模型H中的参数ωi,得到该类钓鱼网站的检测模型H’;
步骤7,获取待检测网站的记录,包括网站的URL和网页信息,输入检测模型H’判断是否为钓鱼网站。
2.根据权利要求1所述的方法,其特征在于,所述的样本集D的规模不能低于100。
3.根据权利要求1或2所述的方法,其特征在于,所述的步骤1中,训练集和测试集表示如下:
第j个训练集Dj={(x1,y1),(x2,y2),...,(xm,ym)},1≤j≤n,1<m<n;
对应的第j个测试集
其中,n为D中样本个数,m为Dj中的样本个数,D/Dj表示从集合D中去除Dj;第i个样本(xi,yi)中包含第i个样本的记录xi和标签yi。
4.根据权利要求1所述的方法,其特征在于,所述的步骤5中,当多分类模型H中的参数ωi,无法收敛时,修正样本标签,更新训练集样本,重新执行步骤4的训练过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司,未经国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810549417.1/1.html,转载请声明来源钻瓜专利网。