[发明专利]适于多个中文敏感词句的识别处理方法及装置有效

申请号：	201710072161.5	申请日：	2017-02-08
公开（公告）号：	CN106951437B	公开（公告）日：	2019-11-01
发明（设计）人：	喻民;刘超;卢越;李敏;姜建国	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	G06F16/332	分类号：	G06F16/332
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李相雨
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	适于中文敏感词句识别处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种适于多个中文敏感词句的识别处理方法及装置，该方法包括：获取多个预设的敏感词句；根据所述敏感词句建立后缀树；获取待识别中文文本；根据所述后缀树对所述待识别中文文本进行匹配；若匹配成功后，获取所述待识别中文本中的敏感词句并输出显示，该方法针对中文的特点，把模式串在后缀树上的匹配时间由提高到达到节省时间和提高模式串在后缀树上的匹配速度，适用于多个敏感词句的中文模式串匹配。

技术领域

本发明涉及计算机处理技术领域，尤其涉及一种适于多个中文敏感词句的识别处理方法及装置。

背景技术

识别敏感词句是指利用程序对信息文本进行嗅探指定的关键字词，检查是否有违反指定策略的行为，是敏感词过滤的基础。为了快速准确的查找敏感词汇需要应用一些模式匹配算法。

模式串的模式匹配算法有Aho-Corasick(AC)算法，BM算法，ACBM算法。其中，AC算法通过预处理，将多个模式串转换为树型有限自动状态机(DFSA)，对文本串扫描一次就可以完成所有模式串匹配，匹配的时间复杂度是O(n+m)。BM算法的时间复杂度是但是无法处理多模式串匹配问题。ACBM算法融合了AC算法和BM算法思想，平均情况下效率优于AC算法，时间复杂度是虽然ACBM算法在实际应用中表现优异，但针对中文效果较差并且未能充分利用的模式串和中文信息的特点，导致匹配速度较慢。

造成低效的原因是英文的基本结构单位是“词”，中文的基本结构单位是“字”。在敏感词句检测时有很大差异。对英语来说，敏感词检测是对26个英文字母进行依次匹配，而对于中文来说是对上万的汉字进行依次匹配。因此字符串匹配算法，由26个英文字母变成上万的汉字后，在时间和空间上都无法达到算法预期效果。另外汉字是多字节符号，同时还具备拼音等英文字母不具有的属性也没有在算法中被充分利用。

发明内容

本发明提供一种适于多个中文敏感词句的识别处理方法及装置，用于解决现有技术中对中文敏感词句匹配速度较慢的问题。

第一方面，本发明提供一种适于多个中文敏感词句的识别处理方法，包括：

获取多个预设的敏感词句；

根据所述敏感词句建立后缀树；

获取待识别中文文本；

根据所述后缀树对所述待识别中文文本进行匹配；

若匹配成功后，获取所述待识别中文本中的敏感词句并输出显示。

可选地，所述根据所述敏感词句建立后缀树，包括：

S21、根据多个预设的敏感词句，建立模式串集合P(P₁,P₂,P₃,P₄,P₅...P_n)；

S22、设置一根节点，所述根节点的属性值为第一预设值，所述第一预设值为任一拼音字母的排列值；

S23、选取所述模式串集合中的任一敏感词句P_i，所述敏感词句P_i的字符串长度为m；