[发明专利]文本内容过滤方法和系统有效
| 申请号: | 200610113592.3 | 申请日: | 2006-10-08 |
| 公开(公告)号: | CN101158948A | 公开(公告)日: | 2008-04-09 |
| 发明(设计)人: | 应凌云;苏璞睿;冯登国 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 冯艺东 |
| 地址: | 100080北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 内容 过滤 方法 系统 | ||
技术领域
本发明属于计算机技术领域,涉及文本信息处理领域的文本信息过滤的实现方法,尤其涉及基于文本主题分析和关键字检测的文本内容过滤方法。
背景技术
随着计算机和互联网技术的迅速发展,应用的日益广泛,使得互联网上的信息量急剧增加,人们也越来越习惯通过网络来获取信息。然而,互联网上的信息十分庞杂,良莠不齐。对互联网上的信息进行监测、分析和过滤,及时发现和阻止不良信息的传播和散布,净化互联网环境显得十分必要。
目前,对于互联网上的文本信息过滤的技术主要分为三类:一类是通过应用关键字匹配算法,匹配文本信息中的特定关键字,如图1所示。这类方法能够较快速地匹配到包含匹配关键字的文本,但要求用户准确给出所有需要检测的关键字,并且由于机械地根据字词进行匹配,误报率较高。另一类方法是采用正规表达式,应用模糊的关键字匹配方法,匹配文本信息中的特定关键字。这一类方法的问题在于,采用正规表达式的匹配过程很复杂,计算量很大,当待过滤内容较多或实时性要求较高时,采用这类方法的过滤方法往往不能胜任。再一类方法是通过支持向量机(SVM)等技术,采用统计分析的方法,对文本内容进行归类,并根据所属类别的对应主题进行进一步的人工分析。这类方法往往需要通过一些训练数据来提取过滤特征,并根据提取到的特征进行实际的过滤操作。这种方法虽然解决了用户配置的难题,但是其完全基于主题的分类方法粒度较大,往往无法准确区分出主题范围内包含不同子话题的内容,产生的结果往往因为需要的后续人工分析工作量太大,在实际应用中用户往往无法承担这么大的工作量。
考虑到文本内容过滤方法的实际应用背景,过滤方法应该需要支持细粒度的精确匹配过滤,一定程度的模糊匹配过滤和基于主题的粗粒度过滤,我们设计了本发明所述的一种基于文本内容和主题相关程度的内容过滤方法。
发明内容
本发明的目的在于提供一种基于文本内容和主题相关程度的内容过滤方法。该方法是一种既具有字词级别的关键字匹配,又具有文章/会话级别的主题相关度分析的文本信息过滤方法。由于结合了关键字匹配的高效性与准确性,以及主题分析误报率低的特点,本发明的实用性大大高于以往文本信息过滤方法。
本发明的另一个目的在于,提供一种可用性高,可操作性好的文本信息过滤系统,降低对用户配置的要求。本发明采用结合关键字匹配和文本主题相关性分析的技术,解决了单一依靠关键字匹配要求用户准确给出所有需要检测的关键字的难题,也解决了单一依靠主题相关性分析需要事先训练,并且分类粒度较粗,不够精确的问题,大大提高了实际应用中的可操作性,降低了对用户配置和使用的要求。
为实现以上目的,本发明的构思是:首先将被过滤文本信息送入文本内容分析模块进行分析,然后将分析结果送往精确匹配检测模块和模糊匹配检测模块进行匹配,文本主题检测模块根据文本内容分析模块的分析结果和模糊匹配检测模块的匹配结果,识别出被过滤文本信息的相关主题。通过调整需要检测的主题和关键字,该方法可以适用于任何主题和/或关键字的过滤,并且不需要事先训练,为用户提供一种使用灵活方便,处理高效快速的文本内容过滤服务。
相应地,用于实现上述方法的文本内容过滤系统主要由文本内容分析模块、精确关键字检测模块、模糊关键字检测模块和文本主题检测模块组成。
基于以上构思,本发明的技术方案为:
一种文本内容过滤方法,包括步骤:
1)解析用户配置信息,提取出其中的有效过滤规则;进一步地,还可以将提取出来的有效过滤规则组织成处理效率更高的内部表达形式;
2)根据所述的有效过滤规则,对被过滤文本信息进行分析和检测;
3)对步骤2)的分析结果进行精确关键字匹配检测,输出检测结果;
4)对步骤2)的分析结果进行模糊关键字匹配检测,输出检测结果;
5)对步骤2)和4)的分析检测结果进行文本主题检测,确定被过滤文本内容的主题,输出检测结果。
较佳地,上述方法还可以包括综合步骤2)、3)、4)的检测结果,输出最终过滤结果的步骤。
相应地,用于实现以上方法的文本内容过滤系统包括:配置信息解析模块、文本内容分析模块、精确关键字检测模块、模糊关键字检测模块和文本主题检测模块。
系统的结构如图2所示,其中:
配置信息解析模块根据用户配置的检测关键字和/或主题,提取出其中的有效过滤规则;并将提取出来的有效过滤规则进行预处理,组织成处理效率更高的内部表达形式;并将组织好的过滤规则送入文本内容分析模块,供其使用;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610113592.3/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





