[发明专利]基于自适应异构多分类模型的钓鱼网站检测方法和系统有效
申请号: | 201810549417.1 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108965245B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 臧天宁;强倩;杜飞;周渊 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。所述方法对多种基分类算法通过线性加成构建自适应异构多分类模型,对多分类模型进行训练,该模型输入是各基分类算法的输入,输出是样本标签,每个基分类算法从样本记录中提取相应的特征作为输入;采用机器学习算法求解模型参数,并用测试集进行测试和优化,最终得到该类钓鱼网站的检测模型。所述系统包括域名词素特征分类器、主题索引特征分类器、内容相似性特征分类器、结构样式特征分类器、视觉规则特征分类器、线性加成训练模块、集成分类器、训练数据集管理模块和检测及告警模块。本发明实现对钓鱼网站实时检测,并提高了钓鱼网站检测的准确性和稳定性。 | ||
搜索关键词: | 基于 自适应 异构多 分类 模型 钓鱼 网站 检测 方法 系统 | ||
【主权项】:
1.一种基于自适应异构多分类模型的钓鱼网站检测方法,其特征在于,所述方法包括:步骤1,对相同类别的钓鱼网站样本集D,采用留一法交叉验证进行训练集和测试集的分类;设第j个训练集表示为Dj,对应的第j个测试集表示为
每个样本包含样本记录和样本标签;样本记录中包含网站的URL和网页信息,样本标签用于标记是否为钓鱼网站;j为正整数;步骤2,通过线性加成构建自适应异构多分类模型H,如下所示:
其中,T为基分类算法的个数,hi为第i种基分类算法,ωi为第i种基分类算法的权重参数,
为调整因子,x表示样本记录;步骤3,多分类模型H的输入是各基分类算法的输入,输出是样本标签;对于训练集Dj,从每个样本的样本记录中提取每个基分类算法相应的特征作为输入;所述的基分类算法表征为线性函数,各分类算法的参数为独立同分布;步骤4,基于训练集Dj,采用机器学习算法对各基分类算法的参数以及多分类模型H中的
进行训练和参数求解;步骤5,在测试集
上对多分类模型H进行测试和优化,直到各基分类算法的参数和多分类模型H中的参数
收敛,对多分类模型H的机器学习算法结束;步骤6,由最终得到的各基分类算法的参数和多分类模型H中的参数
得到该类钓鱼网站的检测模型H’;步骤7,获取待检测网站的记录,包括网站的URL和网页信息,输入检测模型H’判断是否为钓鱼网站。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司,未经国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810549417.1/,转载请声明来源钻瓜专利网。