[发明专利]一种基于URL分类的钓鱼网站检测方法无效
申请号: | 201210223505.5 | 申请日: | 2012-06-29 |
公开(公告)号: | CN102739679A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 曹玖新;罗军舟;东方;王田峰;董丹;刘波;杨鹏伟;吴江林 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 夏雪 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 url 分类 钓鱼 网站 检测 方法 | ||
技术领域
本发明属于网络安全领域,涉及一种反网络钓鱼的方法,特别涉及一种基于URL(网页地址)分类的钓鱼网站检测方法。
背景技术
网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁,其对电子商务的发展造成了很大阻碍,因而对钓鱼防范的研究成为网络安全领域的热点问题。钓鱼网站的规模逐年成倍递增,从机器学习与模式识别角度讲,大量的钓鱼网站已经呈现出一种有迹可循的模式,这给用模式识别的方法进行学习分类带来了一定的应用空间。
目前存在的基于模式识别的钓鱼网站判别方法主要有:
基于邮件特征的钓鱼邮件检测方法。其主要方法是通过对大量钓鱼邮件的学习训练找出一组普遍存在的现象特征。方案从邮件的语言,布局以及结构入手获取诸如特殊句法,结构布局特点,词汇使用模式,反常语言应用等特征。
基于网页文本特征的钓鱼网页检测方法。该方法借助于TF-IDF算法计算一篇文档中的重要程度较高的词汇,然后以这些词汇为网页特征对网页进行分类,分类过程借鉴了google对网页的评价排名。
基于网页图像相似度得钓鱼网页检测。首先将HTML网页转换为标准图片形式,提取主色调和图片重心位置等属性标示图片特征,然后应用EMD(Earth Mover’s Distance)算法计算两图像间的相似度,设定一个阈值判断当前网页是否有模仿现象。
目前钓鱼检测方法存在一定的不足,无论是基于邮件特征还是基于网页特征都要通过对邮件或网页内容进行整体分析,这可能带来以下问题,一是邮件或网页标准不统一,这导致预先设定的检测特征有可能缺失;二是对邮件或网页进行整体分析花费时间较多,从应用角度来讲可能超过用户所能忍受的网络延时;三是受保护机构合法邮件或网页更新时,检测机构没有相应的联动机制。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种适用性强、效率高的基于URL分类的钓鱼网站检测方法。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于URL分类的钓鱼网站检测方法,包括如下步骤:
(1)对钓鱼网站的URL特征进行归纳分析,并将所述URL特征向量化;
(2)根据URL特征向量,对原始数据进行训练得到初始分类模型。
进一步地,还包括步骤(3):检测钓鱼网站的服务器根据在线增量学习策略对当前分类模型进行升级。
进一步地,所述步骤(1)中,钓鱼网站的URL特征包括:
1)URL中存在IP地址。一定比例的钓鱼URL包含有IP地址,而在合法URL中几乎不存在包含IP地址的情况;
2)用“.”来对域名进行混淆。钓鱼网页往往通过用很多“.”来隔开一个正常的字段以达到迷惑用户的目的,如
http://paypal.com.online-update.onlinebanking.service.customer./...而这种URL在合法网站几乎很少见到;
3)URL路径深度异常。即URL中包括“/”的数目,伪造的URL通过加长路径来混淆合法网址;
4)包含特殊字符。如“”“~”“-”在钓鱼URL中经常会出现;
5)存在较多数字、字母相混合的情况。该特征在合法URL与钓鱼URL中都有体现,但在钓鱼URL中更为明显;
6)域名字段长度异常。一般情况下,认为出现在‘http://’与第一个‘/’之间的字符串为域名字段,大部分合法URL的域名长度比较适中,而有一部分钓鱼URL此部分长度显得过长;
7)PageRank排名较低。PageRank是Google对所收录网页按照重要程度进行的排名,在检测中发现,绝大部分钓鱼URL此项数值较低或没有记录。
8)合法域名篡改。钓鱼网站域名往往对合法网站域名进行篡改,如把“paypal”中的字母“l”替换为数字“1”,根据一定方法可以对该现象进行检测。
9)可疑词汇。钓鱼URL中有些词汇出现频率较高,如“login”,“account”等,根据一定方法可以对这些可疑词汇进行统计提取。
对URL特征1)至6)采用正则表达式匹配的方式获取,对URL特征7)通过谷歌获取,对URL特征8)和9)进行特征建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210223505.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种矩形玻璃钢烟道的内撑杆连接结构
- 下一篇:一种地面火炬系统