[发明专利]敏感词检测方法、装置、终端设备和计算机可读存储介质有效
申请号: | 201911344871.4 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111159329B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 方曦;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 刘永康 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 检测 方法 装置 终端设备 计算机 可读 存储 介质 | ||
本申请实施例适用于文本检测技术领域,公开了一种敏感词检测方法、装置、终端设备和计算机可读存储介质,方法包括:获取待检测文本;对待检测文本中的每一个待匹配字符执行字符匹配步骤,得到匹配结果;根据匹配结果得到待检测文本的敏感词检测结果。本申请实施例通过将敏感词各个字符是嵌套递归地存储在敏感词容器中的,使得敏感词检测的复杂度等于敏感词的字符长度,降低了敏感词检测的复杂度,提高了敏感词检测效率。
技术领域
本申请属于文本检测技术领域,尤其涉及一种敏感词检测方法、装置、终端设备和计算机可读存储介质。
背景技术
目前,一些敏感的信息与词汇是不允许出现在文案中的,故需要对文本进行敏感词检测,以过滤或筛选出文本中的敏感词信息。
现有技术中,敏感词检测有基于规则的检测方法,也有基于有限状态机的方法,亦或者是基于机器学习的检测方法,这些方法的检测效率十分有限。
发明内容
本申请实施例提供一种敏感词检测方法、装置、终端设备和计算机可读存储介质,以解决现有敏感词检测效率较低的问题。
第一方面,本申请实施例提供一种敏感词检测方法,包括:
获取待检测文本;
对所述待检测文本中的每一个待匹配字符执行字符匹配步骤,得到匹配结果;
根据所述匹配结果得到所述待检测文本的敏感词检测结果;
所述字符匹配步骤用于:
将所述待匹配字符与敏感词容器的根节点的字符进行比对,确定是否一致;
如果所述待匹配字符与所述根节点的字符一致,且敏感词结束标志位为预设数值,返回匹配成功结果;
如果所述待匹配字符与所述根节点的字符一致,且敏感词结束标志位不为预设数值,k=1,进入循环步骤:将所述待匹配字符后的第k个字符与所述根节点的第k个叶子节点的字符进行匹配,确定是否一致;
如果所述第k个字符与所述第k个叶子节点的字符一致,当敏感词结束标志位不为预设数值,k=k+1后返回所述循环步骤;当敏感词结束标志位为预设数值,返回匹配成功结果;
如果所述第k个字符与所述第k个叶子节点的字符不一致,返回匹配失败结果。
本申请实施例中,通过将敏感词嵌套递归地存储在敏感词容器中的,使得敏感词检测的复杂度等于敏感词的长度,而日常情况下的敏感词长度不会太长,从而降低了敏感词检测的复杂度,提高了敏感词检测效率。
在第一方面的一种可能的实现方式中,所述敏感词容器包括至少一条存储分支,一条所述存储分支用于存储一个敏感词;所述存储分支包括至少一个节点,所述存储分支中的第一个节点为根节点,非第一个节点为叶子节点;一个节点对应一个存储对象;
所述存储对象的数据结构为键值对数据结构,所述存储对象包括key值和value值;在一条所述存储分支中,第m个节点的存储对象的value值存放有作为第m+1个节点的存储对象,所述存储分支对应的敏感词的各个字符依次存放各个存储对象的key值,m为大于或等于1的正整数;
若两个敏感词的前j个字符相同,第j+1个字符不相同,则对应的两条存储分支的前j个节点相同,第j+1个节点及其往后的节点均不相同,j大于或等于0。
可以看出,本申请实施例中用于存放敏感词的敏感词容器是基于键值对数据结构的,且每个存储对象是嵌套递归的,即敏感词是嵌套递归地存储在敏感词容器中的,使得敏感词检测的复杂度等于敏感词的长度,而日常情况下的敏感词长度不会太长,从而降低了敏感词检测的复杂度,提高了敏感词检测效率。
在第一方面的一种可能的实现方式中,所述存储对象为Map对象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911344871.4/2.html,转载请声明来源钻瓜专利网。