[发明专利]一种针对新增域名自动检测网络钓鱼的方法与系统有效
| 申请号: | 201610044658.1 | 申请日: | 2016-01-22 |
| 公开(公告)号: | CN105718577B | 公开(公告)日: | 2020-01-21 |
| 发明(设计)人: | 李晓东;耿光刚;李雪妮;陈勇 | 申请(专利权)人: | 中国互联网络信息中心 |
| 主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/35;H04L29/06 |
| 代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 邱晓锋 |
| 地址: | 100190 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 新增 域名 自动检测 网络 钓鱼 方法 系统 | ||
1.一种针对新注册域名自动检测网络钓鱼的方法,其特征在于,包括如下步骤:
1)全量读取域名注册数据库,并根据连续两次读取的结果计算域名的注册增量,然后将新注册域名扩展为新增URL,作为待检测数据源;
2)获取新增URL的网页文本内容,作为钓鱼网站识别的依据;
3)将获取的网页文本内容的标题、版权信息、正文三个不同位置部分表示为不同的三个特征向量:标题特征向量、版权信息特征向量、正文特征向量;
4)通过以下步骤将表示网页文本内容不同位置部分的三个特征向量合并为一个全文特征向量:
4.1)对标题特征向量、版权信息特征向量进行位置加权计算,即将该两个向量中的每个特征词进行钓鱼概率加权;
4.2)根据加权后的结果以及正文特征向量,得到所述全文特征向量;
5)利用通过分类算法学习得到的权重信息计算该全文特征向量的钓鱼概率,进而生成疑似钓鱼URL列表。
2.如权利要求1所述的方法,其特征在于,步骤1)通过“www”、“wap”前缀将新注册域名扩展为新增URL。
3.如权利要求1所述的方法,其特征在于,步骤4)所述分类算法为下列中的一种:朴素贝叶斯算法、支持向量机算法、人工神经网络算法。
4.如权利要求1所述的方法,其特征在于,步骤4)在计算出全文特征向量的钓鱼概率后,利用阈值分类将高于阈值的网站URL输出,生成疑似钓鱼URL列表。
5.一种针对新注册域名自动检测网络钓鱼的系统,其特征在于,包括:
新注册域名及URL生成模块,负责全量读取域名注册数据库,并根据连续两次读取的结果计算域名的注册增量,然后将新注册域名扩展为新增URL,作为待检测数据源;
网页抓取模块,负责完成对新注册域名及URL生成模块产生的URL进行网页文本信息的获取,获取的网页文本内容作为钓鱼网站识别的依据;
网页特征向量生成模块,负责将网页文本内容的标题、版权信息、正文三个不同位置部分表示为不同的三个特征向量:标题特征向量、版权信息特征向量、正文特征向量;
位置加权计算模块,负责接收标题特征向量、版权信息特征向量,然后对该两个向量中每个特征词进行钓鱼概率加权,并将加权后的结果传递给URL页面分类模块;
URL页面分类模块,负责将表示网页文本内容不同位置部分的三个特征向量合并为一个全文特征向量,并利用通过分类算法学习得到的权重信息计算该全文特征向量的钓鱼概率,进而生成疑似钓鱼URL列表;所述URL页面分类模块有两部分输入,一部分是来自网页特征向量生成模块的正文特征向量,一部分是位置加权模块输出的标题及版权信息特征向量。
6.如权利要求5所述的系统,其特征在于,所述URL页面分类模块在计算出全文特征向量的钓鱼概率后,利用阈值分类将高于阈值的网站URL输出,生成疑似钓鱼URL列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国互联网络信息中心,未经中国互联网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610044658.1/1.html,转载请声明来源钻瓜专利网。





