[发明专利]基于Web页面特征的金融类钓鱼网页检测方法在审

申请号：	201610933083.9	申请日：	2016-10-31
公开（公告）号：	CN106453351A	公开（公告）日：	2017-02-22
发明（设计）人：	胡向东;林家富;刘可;张峰;魏琴芳;李林乐;杨子明;陈国军;白银;刘玥;付俊;郭智慧	申请（专利权）人：	重庆邮电大学
主分类号：	H04L29/06	分类号：	H04L29/06
代理公司：	北京同恒源知识产权代理有限公司11275	代理人：	廖曦
地址：	400065 ***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于Web页面特征的金融类钓鱼网页检测方法，基于预建立的金融类第一Title关键词库、第二Title关键词库、敏感关键词库及网页Logo图标特征点规则库；包括：使用爬虫获取待测网页HTML，提取Title标签文本信息，计算与第一、第二Title关键词库匹配度，若匹配度大于阈值，判定为钓鱼网页，否则转下一步检测；提取待测网页特定标签文本信息，统计与敏感关键词库匹配个数，计算敏感特征值，若特征值大于阈值，判定为钓鱼网页，否则转下一步检测；对待测网页进行定点截图，获取待测网页Logo图标，提取其特征点，并与图标特征点规则库对比，根据特征点匹配个数计算相似度，若相似度大于阈值，判定为钓鱼网页，否则为正常网页。本发明能够准确并快速地判断待测Web页面是否为金融类钓鱼网页。
搜索关键词：	基于 web 页面特征金融类钓鱼网页检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于Web页面特征的金融类钓鱼网页检测方法，其特征在于：该方法的执行基于预先建立的金融类第一Title关键词库、第二Title关键词库、敏感关键词库以及网页Logo图片特征点规则库；该方法具体包括以下步骤：S1：使用爬虫获取的待测网页的HTML，提取Title标签中的文本信息，计算文本信息与第一Title关键词库、第二Title关键词的匹配度，若匹配度大于阈值，判定待测网页为钓鱼网页，否则，进入步骤S2对待测网页做进一步检测；S2：提取待测网页特定标签中的文本信息，统计文本信息与敏感关键词库的匹配个数，计算出Web敏感特征值，若特征值大于阈值，判定待测网页为钓鱼网页，否则，进入步骤S3对待测网页做进一步检测；S3：对待测网页进行定点截图，截图尽可能以最小的面积包含待测网页的Logo图片；S4：提取出Logo截图的特征点，将其与网页Logo图片特征点规则库进行对比，根据特征点的匹配个数计算出两幅Logo图片的相似度，若相似度大于阈值，判定待测网页为钓鱼网页，否则，判定待测网页为正常网页。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610933083.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Web页面特征的金融类钓鱼网页检测方法在审

专利文献下载