[发明专利]面向互联网的不良信息过滤系统及其方法有效
申请号: | 201010200588.7 | 申请日: | 2010-06-13 |
公开(公告)号: | CN102208992A | 公开(公告)日: | 2011-10-05 |
发明(设计)人: | 陶鹏;宋传宝;罗侃;曹浩 | 申请(专利权)人: | 天津海量信息技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/06 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦 |
地址: | 300384 天津市华苑*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 互联网 不良信息 过滤 系统 及其 方法 | ||
技术领域
本发明涉及一种不良信息过滤系统及其过滤方法,尤其涉及一种针对互联网社区的特点,可以对色情、低俗、灌水及商业广告等不良信息进行准确标引和过滤的过滤系统及其过滤方法,属于网络信息安全技术领域。
背景技术
随着互联网的发展壮大,各个网站(包括门户网站、专题网站等)推出了越来越多的社区频道,如:各类专题论坛、博客、评论等,这些社区频道吸引的互动网友日益增多,为网站及网民带来了利益。但同时也有一些人员借这些社区频道大肆发布各类商业广告信息,甚至发布大量的色情、低俗、粗口及与其他同行恶意竞争的帖子,这些不良信息干扰了网站的正常运营,损害了网站的品牌和口碑,同时也极大地影响了其它网民的正常使用。
目前,各个网站针对此情况一般都是采用如下的技术措施:
设置关键词限制:通过维护一个巨大的关键词库,当帖子中含有关键词,系统予以提醒或直接删除。
发帖频率限制:限制同一IP或同一ID在单位时间内发的最大帖子数量。
这两种方法可以过滤掉部分不良数据,但也存在着极大的不足:
对于关键词限制而言,很多不良帖不仅仅是通过一两个关键词就能判断的,而是需要通过对整段话、整句话、关键词的前后语义进行判断。对于发帖频率限制而言,缺陷在于限制了一些正常网民的发帖,同时很容易被发帖机破解,使得此方法难以实际奏效。
在专利号为200510048576.6的中国发明专利中,公开了一种在互联网上堵截色情图像与不良信息的系统。该系统含有IP地址过滤、关键字过滤和色情图像检测,通过多次判决反馈建立色情图像数学模型;建立色情标准图像特征库,作为判决网络图像是否为色情图像的依据;建立相似性匹配判决模型;对通过关键字对比的网络信息进行基于内容的图像判决。既在应用层进行信息内容过滤,又在IP层采用网址过滤,能直接拦截色情图像信息,实时更新URL数据库,由过去被动的网址过滤跳跃到主动的内容过滤,系统独具的多功能管理平台,整合了操作系统、浏览器、因特网协议和图像检测器之间的复杂关系,解决了客户机和服务器之间的进程交互和色情图像检测任务的分工和数据重组问题,并实现了与浏览器无关的特点。
另外,在专利申请号为200410053683.3的中国发明专利申请中,公开了一种互联网内容过滤系统及过滤方法。该内容过滤系统包括:内容过滤代理(CFA)、查询服务器(QS)、内容分析与管理服务器(CAMS)三部分。网络内容过滤系统的过滤流程为:当用户发出对某个URL进行访问的请求时,CFA根据用户设置的黑白名单,允许或禁止该访问请求。倘若该URL不在CFA的黑白名单中,CFA则向QS发出查询请求。QS将会在自己的URL库中查询该URL的分级信息并将结果返回给CFA。CFA据此做出反应。同时QS会定期从CAMS中下载更新的URL分级信息。该技术方案可以识别网络中存在的不良信息,并主动地阻止互联网用户访问这些不良网站。
发明内容
本发明所要解决的技术问题在于提供一种面向互联网的不良信息过滤系统及其方法,可以对色情、低俗、灌水及商业广告等不良信息进行准确标引和过滤。
为实现上述的发明目的,本发明采用下述的技术方案:
一种面向互联网的不良信息过滤系统,其特征在于:
所述不良信息过滤系统包括用户数据提交模块、用户服务管理系统、用户交互信息审核平台、净化服务运营平台、知识库及至少一个标引引擎;其中,
所述用户数据提交模块与所述用户服务管理系统连接,所述用户服务管理系统连接所述净化服务运营平台;
所述净化服务运营平台分别与所述用户交互信息审核平台和各标引引擎进行连接;
所述标引引擎与所述知识库进行连接。
其中,所述标引引擎包括广告标引引擎组、水贴标引引擎组、个性化特征标引引擎组、行为特征标引引擎组、色情标引引擎组、低俗标引引擎组、敏感信息标引引擎组中的一个或多个。
所述知识库包括关键词词库、行为模式库、规则库、实例库和训练特征库中的一个或多个。
所述不良信息过滤系统中还包括杂质特征库、非杂质特征库和个性杂质特征库;所述杂质特征库、非杂质特征库和个性杂质特征库一方面连接所述知识库,另一方面与所述净化服务运营平台进行连接。
所述用户交互信息审核平台包括发布数据模块、反馈数据模块和系统效果统计模块;其中,所述发布数据模块接收来自所述净化服务运营平台的数据,如果是正常标记,则作为正常贴对外发布;如果是错误标记,则送入所述反馈数据模块作为训练语料使用,并反馈给所述净化服务运营平台。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术有限公司,未经天津海量信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010200588.7/2.html,转载请声明来源钻瓜专利网。