[发明专利]基于页面特征匹配的钓鱼网站目标域名识别方法在审

申请号：	201510505960.8	申请日：	2015-08-18
公开（公告）号：	CN105138921A	公开（公告）日：	2015-12-09
发明（设计）人：	王伟平;张兵;钟萍;王建新	申请（专利权）人：	中南大学
主分类号：	G06F21/57	分类号：	G06F21/57
代理公司：	长沙市融智专利事务所 43114	代理人：	黄美成
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于页面特征匹配钓鱼网站目标域名识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于网络安全领域，涉及一种基于页面特征匹配的钓鱼网站目标域名识别方法。

背景技术

钓鱼网站的大量涌现，不仅给互联网用户的财产安全带来威胁，而且会影响被钓鱼攻击的公司的名誉并削弱其可信度。就商业而言，商标是每个公司最重要的资产，公司需要几年甚至更长的时间才可以建立起让消费者信任的商标。钓鱼攻击的受害者将会发现很难与那些似乎不能保护其资产和私密安全性的公司进行交易合作。客户的信任是一种难以估量的资产，但失去它对任何公司来说都是一个坏消息。在这样的网络钓鱼环境中，如何有效识别钓鱼网站的目标域名将有着重大意义，这将为各大商业公司提前做好防御通知工作。

近几年，在钓鱼网站目标识别方面，从识别方法来看，一般分为两步，先确定钓鱼目标的范围，然后依据相关特征的相似性作为钓鱼网站与目标之间的相似性的定量指标，从中确定相似性最大的目标。

国内外很多研究学者针对钓鱼网站的检测方法进行了大量实验，但是在识别钓鱼网站目标方面仍有不足：首先是方法本身大都只考虑从钓鱼网站的链接地址出发，根据钓鱼网站和目标网站之间的单向链接关系来寻找目标网站，当钓鱼网站和目标网站之间的链接关系不是那么明显的时候就会识别不正确；其次是目标范围选取上没有考虑URL地址中的嵌套域名；第三是现有方法大部分采用页面上超链接所占比重来进行域名识别，但如果钓鱼网站的目标网站使用了CDN缓存加速服务，则对该钓鱼网站进行识别时，页面链接中所有对目标网站静态资源的链接地址都将自动转换成CDN缓存加速服务器的域名，这在一定程度上会影响识别方法的准确率；第四是现有钓鱼网站已经开始利用希腊字母与拉丁字母之间的相似性来逃避检测程序的检测。

因此，针对上述问题，有必要设计一种基于页面特征匹配的钓鱼网站目标域名识别方法。

发明内容

本发明所要解决的技术问题是提供一种基于页面特征匹配的钓鱼网站目标域名识别方法，该基于页面特征匹配的钓鱼网站目标域名识别方法具有识别准确率高的优点。

发明的技术解决方案如下：

一种基于页面特征匹配的钓鱼网站目标域名识别方法，包括以下步骤：

步骤1：获取一个待识别的钓鱼网站的URL，URL是网络资源统一定位符；将该URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果【按页面关键词搜索得到的域名】中的域名和常用的被钓鱼目标域名都加入到目标域名识别范围；

步骤2：从目标域名识别范围去除CDN缓存加速服务器的域名，形成可疑目标范围集合D；CDN为内容分发网络；

步骤3：目标识别算法的特征相似性计算：

对可疑目标范围集合D中的每个域名d_j∈D(j＝1，2，...，N)计算基于URL地址特征、搜索特征和页面内容特征的六种特征值M_i(i＝1，...，6)，并计算每种特征的权重W_i，然后计算其特征相似性S：

S=Σi=16Wi·Mi]]>

N为可疑目标范围集合D中的域名总数；

步骤4：将目标域名识别范围D中的每个域名的特征相似性S按照从大到小的顺序进行排列，选取相似度最大的域名作为最终的钓鱼网站目标域名，目标检测结束。