[发明专利]一种网页危险性的识别方法和装置有效
申请号: | 201210507582.3 | 申请日: | 2012-11-30 |
公开(公告)号: | CN103049484A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 董毅;韩洪伟;谢军样;刘绪平;唐杰 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/56 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 危险性 识别 方法 装置 | ||
技术领域
本发明实施例涉及网页安全技术领域,具体涉及一种网页危险性的识别方法和装置。
背景技术
钓鱼网站主要是通过仿冒真实网站的URL地址或是页面内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡账号、密码等私人资料。
钓鱼网页中包含着许多敏感的特征,例如,金融欺诈类的钓鱼网页会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息,这些特征大多以文本串的形式出现在网页中。
目前对钓鱼网页识别的方法,主要是通过人工审核钓鱼网页,以收集一些简单的钓鱼网站的文本特征,供浏览器插件依据这些文本特征对网页内容进行判断,过滤掉这些已报告的攻击网站。
但是,现今钓鱼网站的存活期越来越短,新的钓鱼网页层出不穷,需要审核的网页量太大;并且钓鱼网站的特征变化加快,按照传统的人工审核的方式,提取信息的效率会比较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页危险性的识别方法和装置。
根据本发明的一个方面。提供了一种网页危险性的识别方法,包括:
收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息;
合并符合预设相似条件的候选表征信息;
统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息;
依据所述表征信息训练网页危险性的预测模型,并依据所述预测模型对待检测网页的危险性进行识别。
本发明实施例中,所述将安全网页和危险网页所包含的各个字符依次组成多个候选表征信息的步骤包括:
提取安全网页和危险网页所对应的页面内容;
以连续的多个汉字或一个英文单词作为一个候选表征信息,从所述页面内容中提取多个候选表征信息。
本发明实施例中,所述合并符合预设相似条件的候选表征信息的步骤包括:
针对任意两个候选表征信息,提取所述两个候选表征信息的最长公共子串;
若所述最长公共子串的字符个数符合第一预设范围,且所述两个候选表征信息在安全网页和危险网页中总共出现的次数的差值符合第二预设范围;
则,删除在各个安全网页和危险网页中总共出现的次数较小的候选表征信息。
本发明实施例中,通过以下步骤确定两个候选表征信息的最长公共子串:
将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵;
针对矩阵中的各个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置节点值为0,并以该节点的节点值与左上角的所有节点的节点值之和对该节点的节点值重新赋值;
提取节点值最大的节点所在对角线中,连续的、节点值非0的节点对应的字符作为最长公共子串。
本发明实施例中,所述表征参数包括表征信息与危险网页的相关性参数,以及表征信息对划分安全网页和危险网页的权重参数;
所述统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据表征参数筛选多个候选表征信息作为网页危险性的表征信息的步骤包括:
分别统计合并后的各个候选表征信息与危险网页的相关性参数,并筛选所述相关性参数从大到小排序靠前的候选表征信息;
分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数,并筛选所述权重参数从大到小排序靠前的候选表征信息。
本发明实施例中,所述分别统计合并后的各个候选表征信息与危险网页的相关性参数的步骤包括:
依据合并后的各个候选表征信息在安全网页和危险网页中分别出现的次数,通过卡方检验法,计算各个候选表征信息与危险网页的相关性参数。
本发明实施例中,所述分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数的步骤包括:
依据筛选后的各个候选表征信息在各个安全网页和各个危险网页中分别出现的次数,构建安全网页和危险网页的分类函数,并依据所述分类函数确定各个候选表征信息的权重参数。
本发明实施例中,通过支持向量机线性分类器构建安全网页和危险网页的分类函数。
本发明实施例中,所述预测模型包括各表征信息在网页中出现的次数与网页危险性的对应关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210507582.3/2.html,转载请声明来源钻瓜专利网。