[发明专利]基于自适应异构多分类模型的钓鱼网站检测方法和系统有效

专利信息
申请号: 201810549417.1 申请日: 2018-05-31
公开(公告)号: CN108965245B 公开(公告)日: 2021-04-13
发明(设计)人: 臧天宁;强倩;杜飞;周渊 申请(专利权)人: 国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司
主分类号: H04L29/06 分类号: H04L29/06;G06K9/62
代理公司: 北京永创新实专利事务所 11121 代理人: 祗志洁
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。所述方法对多种基分类算法通过线性加成构建自适应异构多分类模型,对多分类模型进行训练,该模型输入是各基分类算法的输入,输出是样本标签,每个基分类算法从样本记录中提取相应的特征作为输入;采用机器学习算法求解模型参数,并用测试集进行测试和优化,最终得到该类钓鱼网站的检测模型。所述系统包括域名词素特征分类器、主题索引特征分类器、内容相似性特征分类器、结构样式特征分类器、视觉规则特征分类器、线性加成训练模块、集成分类器、训练数据集管理模块和检测及告警模块。本发明实现对钓鱼网站实时检测,并提高了钓鱼网站检测的准确性和稳定性。
搜索关键词: 基于 自适应 异构多 分类 模型 钓鱼 网站 检测 方法 系统
【主权项】:
1.一种基于自适应异构多分类模型的钓鱼网站检测方法,其特征在于,所述方法包括:步骤1,对相同类别的钓鱼网站样本集D,采用留一法交叉验证进行训练集和测试集的分类;设第j个训练集表示为Dj,对应的第j个测试集表示为每个样本包含样本记录和样本标签;样本记录中包含网站的URL和网页信息,样本标签用于标记是否为钓鱼网站;j为正整数;步骤2,通过线性加成构建自适应异构多分类模型H,如下所示:其中,T为基分类算法的个数,hi为第i种基分类算法,ωi为第i种基分类算法的权重参数,为调整因子,x表示样本记录;步骤3,多分类模型H的输入是各基分类算法的输入,输出是样本标签;对于训练集Dj,从每个样本的样本记录中提取每个基分类算法相应的特征作为输入;所述的基分类算法表征为线性函数,各分类算法的参数为独立同分布;步骤4,基于训练集Dj,采用机器学习算法对各基分类算法的参数以及多分类模型H中的进行训练和参数求解;步骤5,在测试集上对多分类模型H进行测试和优化,直到各基分类算法的参数和多分类模型H中的参数收敛,对多分类模型H的机器学习算法结束;步骤6,由最终得到的各基分类算法的参数和多分类模型H中的参数得到该类钓鱼网站的检测模型H’;步骤7,获取待检测网站的记录,包括网站的URL和网页信息,输入检测模型H’判断是否为钓鱼网站。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司,未经国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810549417.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top