[发明专利]一种基于URL分类的钓鱼网站检测方法无效

申请号：	201210223505.5	申请日：	2012-06-29
公开（公告）号：	CN102739679A	公开（公告）日：	2012-10-17
发明（设计）人：	曹玖新;罗军舟;东方;王田峰;董丹;刘波;杨鹏伟;吴江林	申请（专利权）人：	东南大学
主分类号：	H04L29/06	分类号：	H04L29/06;G06F17/30
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	夏雪
地址：	210096***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 url 分类钓鱼网站检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于URL分类的钓鱼网站检测方法，包括如下步骤：

(1)对钓鱼网站的URL特征进行归纳分析，并将所述URL特征向量化；

(2)根据URL特征向量，对原始数据进行训练得到初始分类模型。

2.根据权利要求1所述一种基于URL分类的钓鱼网站检测方法，其特征在于：还包括步骤(3)：检测钓鱼网站的服务器根据在线增量学习策略对当前分类模型进行升级。

3.根据权利要求1所述一种基于URL分类的钓鱼网站检测方法，其特征在于：所述步骤(1)中，钓鱼网站的URL特征包括：

1)URL中存在IP地址；

2)用“.”来对域名进行混淆；

3)URL路径深度异常；

4)包含特殊字符；

5)存在较多数字、字母相混合的情况；

6)域名字段长度异常；

7)PageRank排名较低；

8)域名由合法域名篡改而来；

9)存在可疑词汇；

对URL特征1)至6)采用正则表达式匹配的方式获取，对URL特征7)通过谷歌获取，对URL特征8)和9)进行特征建模。

4.根据权利要求3所述一种基于URL分类的钓鱼网站检测方法，其特征在于：所述步骤(1)中，域名篡改特征的检测方法为：设从URL提取出的域名字符串U＝u₁、u₂、…、u_m，受保护域名字符串T＝t₁、t₂、…、t_n；

计算分别以u_i和t_j结束的两个域名子字符串的最大相似度值，该最大相似度值用H_i,j表示，那么根据u_i与t_j相对位置的不同，H_i，j值有以下四种情况：

1)两子字符串到u_i与t_j结束时长度相同，此时有：

H_i,j＝H_i-1,j-1+s(u_i,t_j)

其中s(ui,tj)=wmatch,ui=tj-wdismatch,ui≠tj,]]>w_match与w_dismatch分别表示u_i与t_j相同和相异时的权值；

2)以u_i结束的子字符串在u_i之前存在长度为k的缺失值W_k，此时有：

H_i，j＝H_i-k，j-W_k

3)以t_j结束的子字符串在t_j之前存在长度为l的缺失值W_l，此时有：

H_i，j＝H_i,j-l-W_l

4)当i=0或j＝0时，定义此时的H_i，j为0，即：

H_i,0＝H_0，j＝0

综合上述四种情况，得到递归公式：

Hi,j=max0Hi-1,j-1+s(ui,tj)maxk≥1(Hi-k,j-Wk)maxl≥1(Hi,j-1-Wl),1≤i≤m,1≤j≤n]]>

利用上述递归公式对两域名进行计算得到一个m*n的矩阵H，两域名的最大相似度值S(U，T)即为矩阵H的最大值h(m,n)；根据受保护域名字符串T的长度进行规格化处理，之后得到从URL提取出的域名字符串U的域名相似系数TM_U：

TMU=h(m,n)n*wmatch]]>

当TM_U=1时表示U与目标合法域名完全匹配，对于其它情况，给定一个域名模仿的阈值区间(f₁,f₂)，其中0≤f1＜f2≤1；当TM_U∈(f₁,f₂)时表示极有可能为域名模仿现象。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210223505.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载