[发明专利]识别钓鱼网站的方法及装置在审
| 申请号: | 201510886094.1 | 申请日: | 2015-12-04 |
| 公开(公告)号: | CN105338001A | 公开(公告)日: | 2016-02-17 |
| 发明(设计)人: | 李晓波;尹露;杨晶 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F21/57 |
| 代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 识别 钓鱼 网站 方法 装置 | ||
1.一种识别钓鱼网站的方法,其特征在于,所述方法包括:
获取已知钓鱼网站的页面,作为样本页面;
从所述样本页面中提取页面的特征向量;
通过所述页面的特征向量训练检测模型;
使用所述检测模型对未知页面进行检测,获得所述未知页面是否为钓鱼网站页面的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述从所述样本页面中提取页面的特征向量,包括:
从所述样本页面的超文本标记语言HTML源代码中提取页面的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述从所述样本页面的HTML源代码中提取页面的特征向量,包括:
从所述HTML源代码中提取预设标签的数量,作为所述特征向量。
4.根据权利要求2所述的方法,其特征在于,所述从所述样本页面的HTML源代码中提取页面的特征向量,包括:
从所述HTML源代码中提取预设关键词,作为所述特征向量。
5.根据权利要求2所述的方法,其特征在于,所述从所述样本页面的HTML源代码中提取页面的特征向量,包括:
从所述HTML源代码中提取贡献度排名靠前的预设数量的代码分片,作为所述特征向量,所述贡献度用于表征代码分片对所述样本页面区别于其他页面的贡献程度。
6.根据权利要求5所述的方法,其特征在于,所述从所述HTML源代码中提取贡献度排名靠前的预设数量的代码分片,包括:
将所述HTML源代码转换为二进制数据流;
通过预设字节长度的时间窗口对所述二进制数据流进行切片,获得多个代码分片;
对获得的代码分片按照贡献度大小进行排序;
从排序后的代码分片中提取贡献度排名靠前的预设数量的代码分片。
7.根据权利要求1所述的方法,其特征在于,所述从所述样本页面中提取页面的特征向量,包括:
从所述样本页面的正文中提取页面的特征向量。
8.根据权利要求7所述的方法,其特征在于,所述从所述样本页面的正文中提取页面的特征向量,包括:
从样本页面的正文中提取贡献度排名靠前的预设数量的分词,作为所述特征向量,所述贡献度用于表征分词对所述样本页面区别于其他页面的贡献程度。
9.根据权利要求8所述的方法,其特征在于,所述从样本页面的正文中提取贡献度排名靠前的预设数量的分词,包括:
通过分词算法对正文的字符串进行分词,获得多个分词;
对获得的分词按照贡献度大小进行排序;
从排序后的分词中提取贡献度排名靠前的预设数量的分词。
10.一种识别钓鱼网站的装置,其特征在于,所述装置包括:
获取单元,用于获取已知钓鱼网站的页面,作为样本页面;
提取单元,用于从所述样本页面中提取页面的特征向量;
训练单元,用于通过所述页面的特征向量训练检测模型;
检测单元,用于使用所述检测模型对未知页面进行检测,获得所述未知页面是否为钓鱼网站页面的检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510886094.1/1.html,转载请声明来源钻瓜专利网。





