[发明专利]敏感词过滤方法、系统、计算机设备及存储介质在审
申请号: | 201911417955.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113127625A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 樊荣;黄绍莽 | 申请(专利权)人: | 苏州三六零智能安全科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 王玉双;刘健 |
地址: | 215127 江苏省苏州市苏州工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 过滤 方法 系统 计算机 设备 存储 介质 | ||
1.一种敏感词过滤方法,其特征在于,包括:
将待检测文本与敏感词库进行匹配,判断是否存在敏感词;
若匹配到所述敏感词,将所述待检测文本进行分词并生成分词列表;
判断匹配到的所述敏感词是否在所述分词列表中;
若匹配到的所述敏感词在所述分词列表中,则判定所述待检测文本为非法文本并进行过滤处理。
2.根据权利要求1所述的敏感词过滤方法,其特征在于,所述将待检测文本与敏感词库进行匹配,判断是否存在敏感词的步骤包括:
通过确定有限自动机算法将待检测文本与敏感词库进行匹配,判断是否存在敏感词。
3.根据权利要求1所述的敏感词过滤方法,其特征在于,所述若匹配到所述敏感词,将所述待检测文本进行分词并生成分词列表的步骤包括:
若匹配到的所述敏感词,判断匹配到的所述敏感词的个数是否达到第一阈值;
若匹配到的所述敏感词的个数达到第一阈值,则将所述待检测文本进行分词并生成所述分词列表;
若匹配到的所述敏感词的个数未达到第一阈值,则判定所述待检测文本为正常文本。
4.根据权利要求1所述的敏感词过滤方法,其特征在于,所述敏感词库中预设有多个所述敏感词及其对应的敏感度;
所述若匹配到所述敏感词,将所述待检测文本进行分词并生成分词列表的步骤包括:
若匹配到的所述敏感词,计算匹配到的全部所述敏感词的敏感度之和;
判断所述敏感度之和是否达到第二阈值;
若所述敏感度之和达到第二阈值,则将所述待检测文本进行分词并生成所述分词列表;
若所述敏感度之和未达到第二阈值,则判定所述待检测文本为正常文本。
5.一种敏感词过滤系统,其特征在于,包括:
匹配模块,用于将待检测文本与敏感词库进行匹配,判断是否存在敏感词;
分词模块,用于若匹配到所述敏感词,将所述待检测文本进行分词并生成分词列表;
判断模块,用于判断匹配到的所述敏感词是否在所述分词列表中;
处理模块,用于若匹配到的所述敏感词在所述分词列表中,则判定所述待检测文本为非法文本并进行过滤处理。
6.根据权利要求5所述的敏感词过滤系统,其特征在于,所述匹配模块还用于通过确定有限自动机算法将待检测文本与敏感词库进行匹配,判断是否存在敏感词。
7.根据权利要求5所述的敏感词过滤系统,其特征在于,所述分词模块进一步包括:
第一判断子模块,用于若匹配到的所述敏感词,判断匹配到的所述敏感词的个数是否达到第一阈值;
第一分词子模块,用于若匹配到的所述敏感词的个数达到第一阈值,则将所述待检测文本进行分词并生成所述分词列表;若匹配到的所述敏感词的个数未达到第一阈值,则判定所述待检测文本为正常文本。
8.根据权利要求5所述的敏感词过滤系统,其特征在于,所述敏感词库中预设有多个所述敏感词及其对应的敏感度;
所述分词模块进一步包括:
第一计算子模块,用于若匹配到的所述敏感词,计算匹配到的全部所述敏感词的敏感度之和,判断所述敏感度之和是否达到第二阈值;
第二分词子模块,用于若所述敏感度之和达到第二阈值,则将所述待检测文本进行分词并生成所述分词列表;若所述敏感度之和未达到第二阈值,则判定所述待检测文本为正常文本。
9.一种存储介质,其特征在于,用于存储一种用于执行权利要求1ˉ4中任意一种敏感词过滤方法的计算机程序。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1ˉ4任一项所述的敏感词过滤方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州三六零智能安全科技有限公司,未经苏州三六零智能安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911417955.6/1.html,转载请声明来源钻瓜专利网。