[发明专利]一种敏感词过滤方法、装置、电子设备、存储介质在审
申请号: | 201710119329.3 | 申请日: | 2017-03-02 |
公开(公告)号: | CN108536693A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 陈朋 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感词 词库 文本 敏感 遍历 文本字符串 存储介质 电子设备 加载 匹配 过滤 遍历操作 遍历过程 匹配成功 预先配置 重新加载 发布 成功 | ||
1.一种敏感词过滤方法,其特征在于,预先配置和加载敏感词库,并在敏感词库变化时重新加载敏感词库,该方法包括:
获取用户输入的文本;
基于预先设定的步幅范围对用户输入的文本进行遍历;
在遍历过程中,对于遍历到的每个文本字符串,将该文本字符串与加载的敏感词库中的所有敏感词进行匹配,如果成功匹配到敏感词库中的一个敏感词,则确定用户输入的文本中存在敏感词,终止对用户输入的文本的遍历操作,并禁止发布用户输入的文本;
在遍历结束后,如果确定遍历到的所有文本字符串均未与敏感词库中的敏感词匹配成功,则确定用户输入的文本中不存在敏感词,允许发布用户输入的文本。
2.根据权利要求1所述的方法,其特征在于,
基于预先设定的步幅范围对用户输入的文本进行遍历之前,进一步包括:使用预先设定的至少一个字符转换器对用户输入的文本进行字符转换。
3.根据权利要求2所述的方法,其特征在于,
所述预先设定的至少一个字符转换器包括字体转换器、字母转换器、数字转换器、标点符号转换器中的一个或多个;
当所述至少一个字符转换器包括字体转换器时,使用字体转换器对用户输入的文本进行字符转换包括:按照繁体字与简体字之间的对应关系对用户输入的文本中的中文字符进行繁体向简体的转换,或者进行简体向繁体的转换;
当所述至少一个字符转换器包括字母转换器时,使用字母转换器对用户输入的文本进行字符转换包括:按照大写字母与小写字母之间的对应关系对用户输入的文本中的英文字母进行大写向小写的转换,或者进行小写向大写的转换;
当所述至少一个字符转换器包括数字转换器时,使用数字转换器对用户输入的文本进行字符转换包括:按照大写数字及项目编号数字与标准阿拉伯数字的对应关系将用户输入的文本中的大写数字及项目编号数字转换为标准阿拉伯数字;
当所述至少一个字符转换器包括标点符号转换器时,使用标点符号转换器对用户输入的文本进行字符转换包括:按照预先设定的字符转换规则对用户输入的文本中的标点符号进行转换;预先设定的字符转换规则包括全角符号向半角符号转换的规则、空格字符向空字符转换的规则、换行符制表符向空字符转换的规则、HTML标记向空字符转换的规则。
4.根据权利要求1所述的方法,其特征在于,
允许发布用户输入的文本之后,进一步包括:将用户输入的文本作为历史文本导入历史文本库;
该方法进一步包括:
获取用户的任务指示,基于任务指示配置任务清单;
周期性获取配置的的任务清单,所述任务清单中包括至少一个任务,每个任务包括用户在历史文本库中指定的多个待过滤历史文本;
对任务清单中各任务包括的每个待过滤历史文本,基于预先设定的步幅范围对该待过滤历史文本进行遍历;
在遍历过程中,对于遍历到的每个文本字符串,将该文本字符串与加载的敏感词库中的所有敏感词进行匹配,如果成功匹配到敏感词库中的一个敏感词,则确定该待过滤历史文本中存在敏感词,终止对该待过滤历史文本的遍历操作,并将该待过滤历史文本标记为待处理;
在遍历结束后,如果确定遍历到的所有文本字符串均未与敏感词库中的敏感词匹配成功,则确定该待过滤历史文本中不存在敏感词,继续在历史文本库中保留该待过滤历史文本。
5.根据权利要求4所述的方法,其特征在于,
对任务清单中各任务包括的所有待过滤历史文本执行基于预先设定的步幅范围的遍历后,进一步包括:对于历史文本库中标记为待处理的历史文本执行批量删除。
6.根据权利要求5所述的方法,其特征在于,
获取用户输入的文本时,进一步确定用户输入的文本的文本类别;
将用户输入的文本作为历史文本导入历史文本库时,进一步在历史文本库中标记该历史文本的文本类别;
所述任务清单由用户指定,任务清单中每个任务包含的多个待过滤历史文本由用户指定的文本类别标识,为用户指定的文本类别对应的所有待过滤历史文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710119329.3/1.html,转载请声明来源钻瓜专利网。