[发明专利]一种网址识别的方法、服务器及系统有效

申请号：	201310503007.0	申请日：	2013-10-23
公开（公告）号：	CN103501306A	公开（公告）日：	2014-01-08
发明（设计）人：	刘健	申请（专利权）人：	腾讯科技（武汉）有限公司
主分类号：	H04L29/06	分类号：	H04L29/06;G06F17/30
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	唐华明
地址：	430000 湖北省武***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网址识别方法服务器系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及互联网技术领域，具体涉及一种网址识别的方法、服务器及系统。

背景技术

互联网在给人们生活带来便利的同时，互联网的安全形势也不容乐观，各类木马病毒伪装成正常文件肆意传播，钓鱼网站模仿正常网站盗取用户帐号密码愈演愈烈。

对于恶意网站的识别和打击，通常有两种方案：一类是基于用户举报和人工审核的方法，用户可以提交可疑的统一资源定位符（Uniform Resource Locator，URL），URL也称网页地址，简称网址，经过人工核实为恶意后则加入恶意URL列表中；一类是基于URL特征识别的方法。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有技术中无论是人工审核的方法还是基于URL特征识别的方法，都需要很长的时间才能确定该网址是否为恶意网址，导致对恶意网址的识别效率低下。

发明内容

本发明实施例提供一种网址识别的方法，可以快速的识别恶意网址，从而提高网络安全性。本发明实施例还提供了相应的服务器及系统。

本发明第一方面提供一种网址识别的方法，包括：

获取待检测网址对应的页面内容；

将所述页面内容与预先生成的恶意页面模板库中的任一页面模板进行匹配；

当所述页面内容与所述任一页面模板的匹配相似度超过第一预设阈值时，确定所述待检测网址为恶意网址。

结合第一方面，在第一种可能的实现方式中，所述方法还包括：

将所述恶意网址存入预先设置的恶意网址库，并收集被拉黑的网址到所述恶意网址库。

结合第一方面第一种可能的实现方式，在第二种可能的实现方式中，所述方法还包括：

根据所述恶意网址库更新所述恶意页面模板库。

结合第一方面第二种可能的实现方式，在第三种可能的实现方式中，所述根据所述恶意网址库更新所述恶意页面模板库，包括：

获取所述恶意网址库中的每一个网址对应的页面内容；

计算所述每一个网址对应的页面内容中任意两个页面内容的相似度，将所述任意两个页面内容的相似度超过第二预设阈值的网址划分到同一集合；

将包含网址数量超过第三预置阈值的任一集合中网址对应的页面内容作为恶意页面模板，并将所述恶意页面模板存入所述恶意页面模板库中。

结合第一方面、第一方面第一种至第三种可能实现方式中的任意一种，在第四种可能的实现方式中，所述获取待检测网址对应的页面内容，包括：

接收用户端发送的所述待检测网址；

根据所述待检测网址下载所述待检测网址对应的页面内容。

本发明第二方面提供一种服务器，包括：

获取单元，用于获取待检测网址对应的页面内容；

匹配单元，用于将所述获取单元获取的页面内容与预先生成的恶意页面模板库中的每个页面模板进行匹配；

确定单元，用于当所述匹配单元匹配出所述页面内容与所述任一页面模板的匹配相似度超过第一预设阈值时，确定所述待检测网址为恶意网址。

结合第二方面，在第一种可能的实现方式中，所述服务器还包括：

存储单元，用于将所述恶意网址存入预先设置的恶意网址库；

收集单元，用于收集被拉黑的网址到所述恶意网址库。

结合第二方面第一种可能的实现方式，在第二种可能的实现方式中，所述服务器还包括：

更新单元，用于根据所述恶意网址库更新所述恶意页面模板库。

结合第二方面第二种可能的实现方式，在第三种可能的实现方式中，所述更新单元包括：

获取子单元，用于获取所述恶意网址库中的每一个网址对应的页面内容；

计算子单元，用于计算所述获取子单元获取的每一个网址对应的页面内容中任意两个页面内容的相似度；

划分子单元，用于将所述计算子单元计算的任意两个页面内容的相似度超过第二预设阈值的网址划分到同一集合；

确定子单元，用于将包含网址数量超过第三预置阈值的任一所述划分子单元划分的集合中网址对应的页面内容作为恶意页面模板；

存储子单元，用于并将所述确定子单元确定的恶意页面模板存入所述恶意页面模板库中。

结合第二方面、第二方面第一种至第三种可能实现方式中的任意一种，在第四种可能的实现方式中，所述获取单元包括：

接收子单元，用于接收用户端发送的所述待检测网址；

下载子单元，用于根据所述接收子单元接收到的待检测网址下载所述待检测网址对应的页面内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（武汉）有限公司，未经腾讯科技（武汉）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310503007.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于机器学习及网络节点信誉的非结构化P2P资源搜索方法
下一篇：各种设备传感器的多协议数据采集系统及方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网址识别的方法、服务器及系统有效

专利文献下载