[发明专利]不良网页检测方法及装置有效
| 申请号: | 201110401720.5 | 申请日: | 2011-12-06 |
| 公开(公告)号: | CN102523130A | 公开(公告)日: | 2012-06-27 |
| 发明(设计)人: | 王利明;耿光刚;洪博 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
| 主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/06 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 陈鸣 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 不良 网页 检测 方法 装置 | ||
技术领域
本发明涉及网络安全技术,尤其涉及一种不良网页检测方法及装置。
背景技术
互联网技术的突飞猛进推动了信息社会的不断发展,互联网已经成为社会活动必不可少的一部分。但是,互联网也成为了色情等不良信息传播的媒介,严重影响网民、特别是青少年对互联网的正常应用,阻碍互联网健康有序的发展。
对色情网站等不良网站的检测,关键词过滤是一种简单、易于实现,且容易进行分布式处理的互联网色情信息检测技术,被广泛应用。但纯粹依赖关键词进行不良网站的检测会造成对众多网站的误检,检测效果不佳。
发明内容
本发明提供一种不良网页检测方法及装置,以提高对不良网页的检测效果。
本发明第一个方面提供一种不良网页检测方法,包括:
根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;
对所述疑似不良网页进行解析,生成解析结果;
当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
本发明另一个方面提供一种不良网页检测装置,其特征在于,包括:
不良网址列表生成模块,用于根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;
解析模块,用于对所述疑似不良网页进行解析,生成解析结果;
第一删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
由上述技术方案可知,本发明第一个方面提供的不良网页检测方法,根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
本发明另一个方面提供的不良网页检测装置,不良网址列表生成模块根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,解析模块对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则第一删除模块将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
附图说明
图1为本发明实施例一提供的不良网页检测方法流程图;
图2为本发明实施例二提供的不良网页检测方法流程图;
图3为本发明实施例三提供的不良网页检测装置结构示意图;
图4为本发明实施例四提供的不良网页检测装置结构示意图。
具体实施方式
实施例一
图1为本发明实施例一提供的不良网页检测方法流程图。如图1所示,本实施例提供的不良网页检测方法具体可以应用于对不良网站的检测,不良网站具体可以包括色情、赌博、暴力以及反动等网站。可以通过不良网页检测装置来执行,该不良网页检测装置具体可以通过软和/或硬件的方式来实现。
本实施例提供的不良网页检测方法具体包括:
步骤10、根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表;
具体地,不良关键词可以包括涉黄词汇等不良信息,可以通过搜索引擎对不良关键词进行搜索,以获取不良关键词对应的疑似不良网页,即疑似不良网页中包含有该不良关键词。不良关键词可以根据具体的检测需要来设置。疑似不良网页对应的原始地址即为通过搜索引擎被不良关键词进行搜索时,搜索到的网页所显示的地址,但是该疑似不良网页在加载过程中可能会发生跳转。该跳转可以是JavaScript跳转,Meta跳转和统一资源定位符(Uniform/Universal Resource Locator,简称URL)跳转,则跳转到的地址即为目标地址。将搜索到的疑似不良网页对应的原始地址记录形成不良网址列表。
步骤20、对疑似不良网页进行解析,生成解析结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110401720.5/2.html,转载请声明来源钻瓜专利网。





