[发明专利]网页文本信息过滤系统及方法无效
申请号: | 201110430970.1 | 申请日: | 2011-12-20 |
公开(公告)号: | CN102402613A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 朱一群;徐涛;刘兰保 | 申请(专利权)人: | 上海电机学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海思微知识产权代理事务所(普通合伙) 31237 | 代理人: | 郑玮 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 文本 信息 过滤 系统 方法 | ||
技术领域
本发明涉及一种网页信息过滤系统及方法,特别是涉及一种可过滤网页文本信息中不良内容的网页文本信息过滤系统及方法。
背景技术
目前国内外在网页内容鉴别上主要有四种过滤技术,即基于因特网内容分级平台(PICS)过滤、数据库过滤(IP库、URL库)、关键字过滤以及智能内容理解过滤。
由于不法分子一般是不会主动给其传播的不良信息内容按照PICS标准贴标签的,所以基于PICS过滤在实际应用中效果不大;数据库过滤方法对许多寄生在综合性网站内的不良信息无法过滤,对一些经常性地更改IP、URL,或采取多级代理方式的含有不良信息网站也无法过滤;基于关键字的不良信息过滤技术能获得较快的过滤速度,但往往不考虑上下文的关联性,漏报、错报率高,而且关键字是目前人们常使用的词,有些信息内容的发布者可能有意避开使用这些词,用其他的词或图片替代,使得基于关键词的信息过滤机制不能识别;智能内容理解过滤技术发展不成熟、计算量大、过滤速度慢。
发明内容
为克服上述现有网页内容过滤技术存在的不足,本发明的主要目的在于提供一种网页文本信息过滤系统及方法,其利用面向对象的编程思想对文本进行过滤开发,并结合各种数据结构对系统进行充分优化,模块之间相互独立,大大提高了本发明之系统的重用性和可扩展性。
为达上述及其它目的,本发明提供一种网页文本信息过滤系统,至少包括:
网页浏览终端,通过一浏览器接收并解析目标请求,并将其发送;
代理服务器,接收该目标请求将其发送至网络主机,并于获得该网络主机返回的源代码信息后将该源代码信息发送至一文本过滤中心模块进行文本内容过滤,同时,该代理服务器还用于接收该文本过滤中心模块返回的过滤结果,并将该过滤结果返回至该网页浏览终端;
网络主机,用于接收该代理服务器发送的目标请求,并返回该源代码信息;以及
文本过滤中心模块,负责该源代码信息解析与过滤判断,并将过滤结果返回至该代理服务器。
进一步地,该代理服务器在将该目标请求发送至该网络主机之前,将该目标请求发送给文本过滤中心模块,并于接收到该文本过滤中心模块解析出真实的网络访问地址、请求参数信息后,重新构建目标请求,再将重新构建的目标请求发送至该网络主机。
进一步地,该文本过滤中心模块包含业务模块、过滤模块以及数据库,其中,该业务模块用于接收该代理服务器发送的目标请求,解析出真实的网络访问地址、请求参数信息并将其返回至代理服务器;该过滤模块用于接收该代理服务器发送的该源代码信息,并根据从该数据库中加载的敏感词信息对该源代码信息进行解析过滤,同时记录不合法请求;该数据库用于存储敏感词信息。
进一步地,该过滤模块包括:
加载模组,用于加载并存储该数据库中的敏感词信息;
源代码接收模组,用于接收来自该代理服务器的源代码信息,并将过滤后的源代码信息返还给代理服务器;
解析模组,用于解析出该源代码信息中的文本内容;
检测模组,用于检测该源代码信息中的文本内容是否需要过滤;以及
过滤处理模组,根据加载的敏感词信息对该源代码信息进行过滤处理。
进一步地,该加载模组于加载敏感词信息后,将敏感词存储于一二叉树数据结构中。
进一步地,该文本过滤中心模块或设置于该网络主机或由该代理服务器集成。
进一步地,该网页浏览终端为手机终端。
为达到上述及其他目的,本发明还提供一种网页文本信息过滤,包括如下步骤:
网页浏览终端接收并解析一目标请求,并将该目标请求发送至代理服务器;
该代理服务器将该目标请求发送至网络主机,并获得网络主机返回的源代码信息;
该代理服务器将该源代码信息发送至文本过滤中心模块进行过滤,并记录不合法请求;
该文本过滤中心模块将过滤结果返回至该代理服务器;以及
代理服务器将过滤后的源代码信息进行处理,并将最终的页面返回至该网页浏览终端进行显示。
进一步地,在该代理服务器将该目标请求发送至该网络主机之前,该方法还包括如下步骤:
该代理服务器将该目标请求发送至该文本过滤中心模块的业务模块;
该业务模块解析出真实的网络访问地址、请求参数信息,并将这些信息返回;以及
该代理服务器将获得的这些信息重新构建目标请求。
进一步地,该文本过滤中心模块进行过滤的步骤包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110430970.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置