[发明专利]一种基于聚合词树的敏感词匹配处理系统及方法有效
申请号: | 201210123747.7 | 申请日: | 2012-04-26 |
公开(公告)号: | CN102682090A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 陶富成;邹铁鹏 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南京市高新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 聚合 敏感 匹配 处理 系统 方法 | ||
技术领域
本发明涉及信息系统数据处理领域,特别涉及一种基于聚合词树的敏感词匹配处理系统及方法。
背景技术
在互联网应用日益发达的今天,互联网信息越来越丰富,与此同时,带有敏感政治倾向、暴力倾向、不健康内容等不良信息也随之泛滥,为了净化网络环境,因此在需要对外发布信息的互联网场合中,其内容是要经过审查,审查通过后才能在互联网上公开。信息内容审查初期,都是通过人工进行审核,这种审核方式虽然准确,但随着信息的快速增长,这种方式凸显审查效率低、人员负荷重的缺点,在这种情况下,自动化的系统处理方式的需求越来越强烈。
随着各种自动化处理系统的产生,其处理方式都是针对敏感词库,基于敏感词库对目标信息进行敏感词提取操作,而对于敏感词匹配来说,有两个关键点:匹配效率和匹配准确率。匹配效率体现了在对大量敏感词以及大量目标信息处理时的响应时间;匹配准确率体现了对于一个敏感词要尽量区分语境,不能误将非敏感词判断为敏感词而进行处理。
目前较为流行且成熟的处理方法有:
1、简单文本搜索与替换。
这种方式是以敏感词库为主体,对目标信息进行匹配,就是循环把每个敏感词在目标信息中从头到尾搜索一遍,如果在目标信息中有匹配成功的敏感词,那就找到一个就处理一个。
优点:算法简单,实现方法简单。
缺点:(1)匹配效率太低。因为需要遍历敏感词库中的每个敏感词,当敏感词数量很多、目标信息容量很大时,其匹配效率是该算法的致命问题。
(2) 匹配准确率太低。比如,有一个敏感词为as,那目标信息中包含hash、class等词语中的as都会被匹配、处理,导致错误的处理结果。
2、DFA算法
这个算法是以目标信息为主体,将所有敏感词构建为词图,以任意一个字开始,都可以查出以该字为开头的敏感词。对目标信息进行逐一搜索,并判断每个字是否在词图中存在,如果存在看是否有对应的词存在,如果存在,则匹配成功,记录下来,继续往下搜索直到搜索完整个目标信息。
优点:比“简单文本搜索与替换”方法效率高。
缺点:(1)算法复杂,实现成本高。
(2)匹配准确率比较低。
(3)内存占用高,使系统启动速度慢。
现有技术中“一种敏感词匹配方法和系统”(申请号:201110181501.0;公布号:CN102207979A),根据敏感词库中的所有敏感词汇生成多个确定有限自动机DFA图,对于给定的待判定信息,从首字开始,逐字从DFA图的入口开始匹配,直到到达该DFA的出口,则匹配成功。这种技术方案不需要反复遍历,提高了性能。由于生成DFA图消耗大量资源,因此针对敏感词库中的敏感词是动态变化、持续增长的情况,此专利提出的技术方案还是会由于反复重构DFA图,造成大量资源的反复被消耗,还是会造成内存占用高,使系统启动速度慢。
敏感词匹配处理应用的范围很广,包括电子商务平台,企业内部管理系统,企业展示网站等,在这些系统中,敏感词匹配处理都起着重要的作用。因此,如何实现提高敏感词的匹配效率和匹配准确率是一个亟待解决的问题。
发明内容
本发明提供了一种基于聚合词树的敏感词匹配处理的系统及方法,用以解决现有技术方法中在敏感词匹配方面效率低和准确率低的问题。
本发明技术方案如下:一种基于聚合词树的敏感词匹配处理系统,包括敏感词库单元、聚合词树算法处理器、语义分析单元、行业领域分析单元,匹配结果输出单元。
敏感词库单元,用于保存长期积累的各类行业敏感词,以及具有敏感政治倾向、暴力倾向、不健康内容的词语。敏感词库单元由专门的管理系统进行维护。
聚合词树算法处理器,用于对敏感词库进行预处理,形成多棵词树的结构,然后通过词树对目标信息进行敏感词匹配。其中包括聚合词树生成单元、目标信息匹配单元。
聚合词树生成单元,用于将敏感词库中的每个敏感词按照聚合词方式建立词链,词链上的每个结点就是该词的每个字对应的特征码,每个词链的结尾都有一个结尾标志。然后将多条词链聚合成一棵词树,这样,整个敏感词库中的所有敏感词通过聚合词树的方法会聚合成多棵词树。再根据这些词树的根结点特征码算出它们的地址,存入内存地址表中备用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210123747.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高纯TPP制备方法
- 下一篇:接触网检测车专用高低压信号隔离传输装置