[发明专利]信息过滤方法、系统与装置有效
申请号: | 201210392601.2 | 申请日: | 2012-10-16 |
公开(公告)号: | CN103729384B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 粟栗;张峰 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 过滤 方法 系统 装置 | ||
技术领域
本发明涉及数据业务领域,尤其涉及一种信息过滤方法、系统与装置。
背景技术
信息过滤是互联网的一项重要技术,其处理对象一般是网页、数据业务中传输的信息(如基于bt下载的文本信息、图片信息、音频信息和视频信息等)短信、彩信和铃声等。
由于需要过滤的信息一般不具备多次完全重复的特点,信息过滤一般采用基于特征的识别方式。以数据业务中的文本信息为例,基于特征的方式主要是指基于一些关键词对文本信息进行过滤。该方式的缺陷在于,由于一些合法信息也可能会包含指定的关键词,所以该方式会将合法信息误判为应该过滤的可疑的信息,从而导致最终的过滤结果会存在着一定的误判率。由于实际用户访问数据中,需要过滤的可疑的信息在总信息中占比非常少,一般为0.1‰,而被错误地判断为可疑的信息的误判信息在总信息中占比则可能会达到10%左右,这样,按照该方式得到的过滤结果中,误判信息的占比可能高达99%。可见,信息过滤技术面临的最大问题之一是误判情况非常严重。
为了避免产生错误过滤,现有技术一般通过人工审核系统来实现从过滤结果中提取出误判信息。一个典型的包含人工审核系统的信息过滤系统如图1所示。图1中,待过滤原始信息首先输入到信息过滤服务器,信息过滤服务器按照预设的过滤机制对待过滤原始信息进行过滤后,将过滤出的可疑的信息提交人工审核系统进行人工审核。通过人工审核,可以从信息过滤服务器过滤出的可疑的信息中筛选出误判信息。包含人工审核系统的该信息过滤系统虽然可以最终实现较低的误判率,但由于误判信息数量一般比较庞大,而人工审核的环节无疑会耗费非常大的人力资源,且效率一般较低。因此,如何从技术层面进行改进而减少产生的误判信息的数量是目前重点研究的内容。
目前常用的用于减少误判信息数量的方法如下:
(1)通过优化算法和策略来减少误判信息数量的机制
该机制的主要思想是对信息过滤系统所用的过滤策略进行调整或通过二次过滤方式添加新过滤条件,实现在系统进行过滤时更准确的目的。一般来说可设置更多、更精确的过滤条件,例如若以“法轮”作为关键词所得到的过滤效果不好,则可以将“法轮&功”或者“法轮&大法”等作为细化的关键词。又比如,对于短信来说,如果采用“该用户1小时内发送短信数量>500”和“短信正文附带电话号码”作为过滤条件不能得到较好的过滤效果,则还可以添加“发送对象无重复”作为一个过滤条件。
由于信息自身的特点,过滤条件设定越严格,漏报的情况就越多,因此要设定一个同时满足漏报少、误判少的优化算法非常困难。
(2)基于访问者白名单的过滤机制
该机制将可信的访问者纳入白名单,不对由该部分访问者所发送的任何信息进行过滤,即不对一些固定来源(如白名单中的访问者的IP地址、手机号等)的信息进行过滤。由于可信的访问者比较少,因此采用该过滤机制一般不会明显降低误判信息的数量;此外,白名单中的访问者发送的信息仍然有可能包含需过滤的可疑的信息,从而该过滤机制存在不完善的缺陷。
(3)基于目标白名单的过滤机制
该机制的基本思想为设定目标白名单(目标白名单中可以包含如往来的信息受到监控的IP地址等),不拦截任何发向目标白名单中的地址的信息。由于该机制可以减少一部分输入到信息过滤服务器中的待过滤原始信息,从而能够减少产生的误判信息数量。但类似于基于访问者白名单的过滤机制,由于发向目标白名单中的地址的信息仍然有可能包含需过滤的可疑的信息,从而该过滤机制仍然不完善。
发明内容
本发明实施例提供一种信息过滤方法、系统与装置,用以解决现有技术中存在的基于人工审核系统来降低误判率会耗费较多处理资源的问题。
本发明实施例采用以下技术方案:
一种信息过滤系统,包括信息过滤服务器,还包括二次过滤服务器,其中:信息过滤服务器,用于按照预设信息过滤机制,对待过滤信息集合进行过滤,输出由判断出的可疑的信息构成的第一信息集合;二次过滤服务器,用于获得信息过滤服务器输出的第一信息集合,并根据预先设置的误判信息特征库,分别判断所述第一信息集合中的每条信息是否与误判信息特征相匹配;放行判断出的与误判信息特征相匹配的信息;其中,所述误判信息特征是从被误判为可疑的信息的误判信息中提取的。
一种信息过滤方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210392601.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:支持多种功能的基于成像装置的乘坐者监控系统
- 下一篇:安全云数据库平台
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置