[发明专利]基于自适应异构多分类模型的钓鱼网站检测方法和系统有效

专利信息
申请号: 201810549417.1 申请日: 2018-05-31
公开(公告)号: CN108965245B 公开(公告)日: 2021-04-13
发明(设计)人: 臧天宁;强倩;杜飞;周渊 申请(专利权)人: 国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司
主分类号: H04L29/06 分类号: H04L29/06;G06K9/62
代理公司: 北京永创新实专利事务所 11121 代理人: 祗志洁
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 自适应 异构多 分类 模型 钓鱼 网站 检测 方法 系统
【权利要求书】:

1.一种基于自适应异构多分类模型的钓鱼网站检测方法,其特征在于,所述方法包括:

步骤1,对相同类别的钓鱼网站样本集D,采用留一法交叉验证进行训练集和测试集的分类;设第j个训练集表示为Dj,对应的第j个测试集表示为每个样本包含样本记录和样本标签;样本记录中包含网站的URL和网页信息,样本标签用于标记是否为钓鱼网站;j为正整数;

步骤2,通过线性加成构建自适应异构多分类模型H,如下所示:

其中,T为基分类算法的个数,hi为第i种基分类算法,ωi为第i种基分类算法的权重参数,为调整因子,x表示样本记录;

基分类算法包括:h1代表域名词素特征分类算法,是根据域名词素判断是否为钓鱼网站;h2代表主题索引特征分类算法,是根据网页中主题标签下内容判断是否为钓鱼网站;h3代表内容相似性特征分类算法,是根据网页中内容标签下内容进行相似性比较判断是否为钓鱼网站;h4代表结构样式特征分类算法,是根据源代码的结构判断是否为钓鱼网站;h5代表视觉规则特征分类算法,是根据网页的图标、配色、图片判断是否为钓鱼网站;

所述的基分类算法表征为线性函数,各分类算法的参数为独立同分布;

步骤3,多分类模型H的输入是各基分类算法的输入,输出是样本标签;对于训练集Dj,从每个样本的样本记录中提取每个基分类算法相应的特征作为输入;

步骤4,基于训练集Dj,采用机器学习算法对各基分类算法的参数以及多分类模型H中的ωi,进行训练和参数求解;

采用极大似然估计法求解各基分类算法的参数,采用最大期望算法对多分类模型H中的参数ωi,进行迭代求解;

步骤5,在测试集上对多分类模型H进行测试和优化,直到各基分类算法的参数和多分类模型H中的参数ωi,收敛,对多分类模型H的机器学习算法结束;

步骤6,由最终得到的各基分类算法的参数和多分类模型H中的参数ωi,得到该类钓鱼网站的检测模型H’;

步骤7,获取待检测网站的记录,包括网站的URL和网页信息,输入检测模型H’判断是否为钓鱼网站。

2.根据权利要求1所述的方法,其特征在于,所述的样本集D的规模不能低于100。

3.根据权利要求1或2所述的方法,其特征在于,所述的步骤1中,训练集和测试集表示如下:

第j个训练集Dj={(x1,y1),(x2,y2),...,(xm,ym)},1≤j≤n,1<m<n;

对应的第j个测试集

其中,n为D中样本个数,m为Dj中的样本个数,D/Dj表示从集合D中去除Dj;第i个样本(xi,yi)中包含第i个样本的记录xi和标签yi

4.根据权利要求1所述的方法,其特征在于,所述的步骤5中,当多分类模型H中的参数ωi,无法收敛时,修正样本标签,更新训练集样本,重新执行步骤4的训练过程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司,未经国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810549417.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top