[发明专利]基于页面特征匹配的钓鱼网站目标域名识别方法在审

专利信息
申请号: 201510505960.8 申请日: 2015-08-18
公开(公告)号: CN105138921A 公开(公告)日: 2015-12-09
发明(设计)人: 王伟平;张兵;钟萍;王建新 申请(专利权)人: 中南大学
主分类号: G06F21/57 分类号: G06F21/57
代理公司: 长沙市融智专利事务所 43114 代理人: 黄美成
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 页面 特征 匹配 钓鱼 网站 目标 域名 识别 方法
【权利要求书】:

1.一种基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,包括以下步骤:

步骤1:获取一个待识别的钓鱼网站的URL,URL是网络资源统一定位符;将该URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果中的域名和常用的被钓鱼目标域名都加入到目标域名识别范围;

步骤2:从目标域名识别范围去除CDN缓存加速服务器的域名,形成可疑目标范围集合D;CDN为内容分发网络;

步骤3:目标识别算法的特征相似性计算:

对可疑目标范围集合D中的每个域名dj∈D(j=1,2,...,N)计算基于URL地址特征、搜索特征和页面内容特征的六种特征值Mi(i=1,...,6),并计算每种特征的权重Wi,然后计算其特征相似性S:

S=Σi=16Wi·Mi]]>

N为可疑目标范围集合D中的域名总数;

步骤4:将目标域名识别范围D中的每个域名的特征相似性S按照从大到小的顺序进行排列,选取相似度最大的域名作为最终的钓鱼网站目标域名,目标检测结束。

2.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,所述的步骤1中,在获取钓鱼网站页面代码的时候增加预处理操作,参考希腊字母简表,将代码中所有的希腊字母转换成拉丁字母。

3.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,在步骤2中,计算PR值,PR为网页排名,将PR值为0的域名从目标范围中删除,以去除CDN缓存加速服务器对检测方法的干扰。

4.根据权利要求1-3任一项所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,在步骤3中,URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果这三个方面提取出以下六种特征,(1)URL地址是否包含可疑目标网站顶级域名、(2)URL地址是否包含可疑目标网站二级域名、(3)网页标题是否包含可疑目标网站二级域名、(4)页面超链接包含可疑目标网站顶级域名的次数、(5)提取的页面7个关键词是否包含可疑目标网站二级域名和(6)搜索结果中包含可疑目标网站顶级域名的次数;

对于i=1,2,3,5,Mi=0表示特征匹配不成功,或者Mi=1表示特征匹配成功;另外,M4和M6为第4个和第6个特征匹配成功的次数。

5.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,在步骤3中,权值W1和W2采用训练样本统计的方式获得,选取Phishtank上K个钓鱼网站样例作为特征权值计算样本;对于特征1,假设样本中URL嵌套可疑目标网站顶级域名的数目共有K1个,嵌套的域名是真实目标网站的样本数为X1,则W1=X1/K1;对于特征2,假设样本中URL嵌套可疑目标网站二级域名的数目共有K2个,嵌套的域名是真实目标网站的样本数为X2,则W2=X2/K2。K取值要求大于等于300。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510505960.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top