[发明专利]敏感词过滤方法、系统、计算机设备及存储介质在审
申请号: | 201911417955.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113127625A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 樊荣;黄绍莽 | 申请(专利权)人: | 苏州三六零智能安全科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 王玉双;刘健 |
地址: | 215127 江苏省苏州市苏州工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 过滤 方法 系统 计算机 设备 存储 介质 | ||
本发明提供了一种敏感词过滤方法,包括:将待检测文本与敏感词库进行匹配,判断是否存在敏感词;若匹配到所述敏感词,将所述待检测文本进行分词并生成分词列表;判断匹配到的所述敏感词是否在所述分词列表中;若匹配到的所述敏感词在所述分词列表中,则判定所述待检测文本为非法文本并进行过滤处理。本发明还提供一种敏感词过滤系统、计算机设备及存储介质。借此,本发明能够提高敏感词过滤的效率和准确率。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种敏感词过滤方法、系统、计算机设备及存储介质。
背景技术
随着网络技术的不断发展,越来越多的人通过网络发布、传递并获取各种信息数据,其中不乏包含了低俗、暴力等其他不良数据。敏感词过滤是随着网络技术一起发展起来的一种阻止网络犯罪和网络暴力的技术手段,通过对可能存在犯罪或网络暴力可能的关键词进行有针对性的筛查和屏蔽,很多时候能够防患于未然,把后果严重的违法犯罪行为扼杀于萌芽之中。
中国专利申请CN201610070729.5公开了一种敏感词过滤的方法,通过接收待检查的文本内容,将接收到的文本内容进行分词处理,将处理得到的分词与敏感词库中的敏感词进行匹配,若匹配成功,则将所述分词标记为敏感词,并将标记为敏感词的分词进行隐藏处理。该方法通过计算机将接收到的文本内容进行分词处理,进而将得到的分词与敏感库中的敏感词进行匹配,若匹配成功,则将该分词标记为敏感词,并进行隐藏处理。但是考虑到现实场景中大部分文本为正常文本,中国专利申请CN201610070729.5采用先分词再匹配的技术方案会耗费大量计算时间,而且容易误判,因此效率和准确率较低。
综上可知,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。
发明内容
针对上述的缺陷,本发明的目的在于提供一种敏感词过滤方、系统、计算机设备及存储介质,其能够提高敏感词过滤的效率和准确率。
为了实现上述目的,本发明提供一种敏感词过滤方法,包括:
将待检测文本与敏感词库进行匹配,判断是否存在敏感词;
若匹配到所述敏感词,将所述待检测文本进行分词并生成分词列表;
判断匹配到的所述敏感词是否在所述分词列表中;
若匹配到的所述敏感词在所述分词列表中,则判定所述待检测文本为非法文本并进行过滤处理。
根据本发明所述的敏感词过滤方法,所述将待检测文本与敏感词库进行匹配,判断是否存在敏感词的步骤包括:
通过确定有限自动机算法将待检测文本与敏感词库进行匹配,判断是否存在敏感词。
根据本发明所述的敏感词过滤方法,所述若匹配到所述敏感词,将所述待检测文本进行分词并生成分词列表的步骤包括:
若匹配到的所述敏感词,判断匹配到的所述敏感词的个数是否达到第一阈值;
若匹配到的所述敏感词的个数达到第一阈值,则将所述待检测文本进行分词并生成所述分词列表;
若匹配到的所述敏感词的个数未达到第一阈值,则判定所述待检测文本为正常文本。
根据本发明所述的敏感词过滤方法,所述敏感词库中预设有多个所述敏感词及其对应的敏感度;
所述若匹配到所述敏感词,将所述待检测文本进行分词并生成分词列表的步骤包括:
若匹配到的所述敏感词,计算匹配到的全部所述敏感词的敏感度之和;
判断所述敏感度之和是否达到第二阈值;
若所述敏感度之和达到第二阈值,则将所述待检测文本进行分词并生成所述分词列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州三六零智能安全科技有限公司,未经苏州三六零智能安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911417955.6/2.html,转载请声明来源钻瓜专利网。