[发明专利]文本匹配过滤方法及装置在审
申请号: | 201310753277.7 | 申请日: | 2013-12-31 |
公开(公告)号: | CN104750673A | 公开(公告)日: | 2015-07-01 |
发明(设计)人: | 粟栗;张峰 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 过滤 方法 装置 | ||
技术领域
本发明涉及信息安全技术领域,尤其涉及一种对信息进行过滤的文本匹配过滤方法及装置。
背景技术
随着互联网和移动通信的普及与发展,使得现实生活中充满了大量的各种信息,也为信息的传播与获取提供了更加便捷、更加有效的方式。与此同时,也充斥着各种违法有害信息的传播,比如:淫秽色情信息、反动信息、广告信息等。因此,采用一些技术手段对这些违法有害信息进行过滤,保证信息的绿色、健康是很必要的。对信息进行过滤时,一般会采用关键字匹配技术实现,即通过设定违规关键字库、对被测文本进行分析,匹配关键字库后进行疑似判定;关键字识别与过滤技术具有速度快、方式灵活等优点,是进行违规信息过滤的主要方式。
目前采用关键字匹配方式对文本进行识别的技术主要包括精确匹配、去除特殊符号匹配、组合匹配的方式。以“购买发票”为关键字为例,具体说明如下:
(1)关键字精确匹配。通过匹配被检测文本中包含的关键字信息,实现对文本的过滤;只有在文本中准确出现原关键字,才能进行判定。例如文本“新企业需要购买发票本,须在该企业报到完成,……”中包含关键字,则能有效发现与过滤。
这种方式由于关键字精确匹配的方式对匹配的内容要求与设定的关键字完全一致,若被测文本关键字中出现特殊字符,如“&”、“*”、“#”等,那么此方法将不能识别出所测关键字;当采用同音字代替关键字中的部分字符时,也不能识别。即精确匹配容易被绕开产生漏判。
而且随着对过滤技术的了解,越来越多的非法信息采用多种方式进行过滤技术绕开,常用的技术包括:加入特殊字符、使用谐音字、使用拼音等。在这些技术干扰的情况下,对文本进行准确过滤的难度进一步增加。
(2)去除特殊字符后匹配(模糊匹配)。在一些广告信息中,为避免精确匹配关键字并进行过滤,采用了一些干扰字符间隔。通过模糊匹配的方式,可以去除一些干扰字符,然后按精确匹配的方式进行。例如文本“您好!购、买、发、票请咨询400xxxxxx”,通过去除特殊字符后形成文本“您好购买发票请咨询400xxxxxx”;去除标点符号后,可以匹配关键字并进行有效发现。
这种模糊匹配的方式从一定程度上避免了漏判,但不能识别同音字、形近字,容易形成漏判。比如:所设定的关键字为“购买发票”,若使用去特殊字符算法进行查找,则若文本中出现“购埋发票”字段中有同音错字的现象时,此方法则不能正确识别。
(3)组合关键字匹配。通过将一个关键字拆分成多个关键字组合的方式。例如将“购买发票”拆分成“购买+发票”,这种方法也在一定程度上过滤了特殊字符和错别字,提高适用范围。例如对于文本“购买水果的同志,请到服务台开具发票”,可实现组合关键字匹配,发现疑似文本。在组合关键字的技术中,如何有效地拆分关键字是一项关键技术。
这种组合关键字设定方式困难,且容易形成误判。例如设定“购买+发票”为判定规则,对于文本“购买水果的同志,请到服务台开具发票”形成了误判。若需要判定字符之间的间距等,则算法复杂,导致效率降低,不适合大规模处理。
综上所述,现有的通过关键字识别技术进行文本过滤匹配的方法,其过滤匹配的准确性比较低,容错性比较差,很容易产生误判与漏判,导致不能准确的将需要过滤的文本过滤掉。
发明内容
本发明实施例提供一种文本匹配过滤方法及装置,用于解决现有技术中文本匹配过滤时存在的容错性差,判断准确性低,容易产生误判和漏判的问题。
本发明实施例提供一种文本匹配过滤方法,包括以下步骤:
将被测文本中的字符进行独立分割,得到分割后的字符串;
将分割后的字符串中的字符分别与倒排字库中的关键字符进行匹配;所述倒排字库是对输入的关键字进行逐字符分解并记录每个关键字符在所述关键字中的位置信息后形成的;
按照设定的模糊度确定规则,确定匹配成功的每个关键字中关键字符匹配时用到的模糊度值,得到每个关键字的匹配模糊度;
根据每个关键字的匹配模糊度,确定输入的关键字的平均模糊度,根据所述平均模糊度确定所述被测文本是否符合过滤条件。
在一些可选的实施例中,形成到排字库的过程,具体包括:
对输入的关键字进行顺序编号,形成关键字库;
对关键字库中的每个关键字进行逐字符分解,为分解后得到的每个关键字符建立位置信息集合;所述位置信息集合中包括关键字符、关键字符所属的关键字编号、关键字符在所属关键字中的字符位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310753277.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海量数据的处理方法及装置
- 下一篇:接口装置