[发明专利]基于矩阵的敏感词过滤方法、装置、电子设备、存储介质在审
申请号: | 201911389334.1 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111241389A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 王瑛;王龙 | 申请(专利权)人: | 陕西数字基地出版传媒集团有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06Q50/00 |
代理公司: | 北京金宏来专利代理事务所(特殊普通合伙) 11641 | 代理人: | 许振强 |
地址: | 710038 陕西省西安市浐*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 矩阵 敏感 过滤 方法 装置 电子设备 存储 介质 | ||
本申请提供基于矩阵的敏感词过滤方法、装置、电子设备、存储介质,其中所述方法包括:获取敏感词并根据敏感词构建相关词库,根据敏感词对目标文本进行检测,若出现敏感词,则进一步判断该敏感词所在句子是否存在该敏感词相关词库中的词语,若不存在,则过滤掉该敏感词,否则保留该敏感词。本申请方案可以提高敏感词过滤的准确性和时效性,算法灵活度高,用户体验好。
技术领域
本申请涉及信息系统数据处理技术领域,具体而言,涉及基于矩阵的敏感词过滤方法、装置、电子设备、存储介质。
背景技术
随着互联网技术的发展,互联网环境也变得日益复杂,一些涉及暴力、政治以及赌博等较为敏感的信息也被公之于众。因此,为了净化网络环境,需要对网站上发布的文章进行敏感信息或敏感词过滤,使得不适宜被公开的信息能给及时发现和规避。
现有的敏感词过滤方法是,把全部可能的敏感词作为元素,构成一个一维向量词库,根据该一维向量词库对每一篇文章进行全文检索,当发现敏感词的时候,提示作者进行修改,或者直接用替换符号,如*号等将敏感词隐藏替换掉。第一种提示修改的方式会造成作者要用其他词语来代替敏感词,再次提交时仍然要从头过滤一遍敏感词,当敏感词数量很多,目标文章信息量很大的时候,该方法会存在严重的效率低下问题;第二种替换的方式会给读者带来阅读的不便。同时,简单的一维过滤,会直接粗暴的把词语屏蔽掉,使得一些正常的句子变得不可读,以及错将非敏感词作为敏感词过滤掉,敏感词过滤的准确性较低,给读者和作者都带来不便,增大了读者和作者的工作量。
敏感词过滤被广泛应用于网络文学、数字出版、电子商务交流、教育培训、网络社交以及企业管理等领域,如何提高敏感词过滤的准确性及高效性成为了现有技术中急需要解决的技术问题。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供基于矩阵的敏感词过滤方法及系统,以解决现有技术中存在的敏感词过滤准确率和效率低下的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请提供基于矩阵的敏感词过滤方法,包括:
获取敏感词并根据敏感词构建相关词库,该相关词库列举包括敏感词但与敏感词意义不同的词语,所有敏感词及其相关词库构成相关矩阵;
根据敏感词对目标文本进行检测,若出现敏感词,则进一步判断该敏感词所在句子是否存在该敏感词相关词库中的词语,若不存在,则过滤掉该敏感词,否则保留该敏感词。
可选地,所述获取敏感词之前还包括:
根据目标文本的题材对敏感词进行分类,所述获取敏感词具体为获取与目标文本的题材相对应的敏感词;
可选地,所述根据敏感词对目标文本进行检测具体为根据敏感词的优先级对目标文本进行检测,所述进一步判断该敏感词所在句子是否存在该敏感词相关词库中的词语具体为:根据相关词库中词语的优先级来进一步判断所在句子是否存在该敏感词相关词库中的词语,所述敏感词的优先级可根据敏感词出现的次数实时动态调整,所述相关词库词语的优先级可根据词语出现的次数实时动态调整。
可选地,所述根据敏感词对目标文本进行检测还可是:将敏感词根据优先级进行分段;选择敏感词区段;根据所选择的敏感词区段对目标文本进行检测;所述敏感词的优先级可根据敏感词出现的次数实时动态调整。
可选地,所述根据敏感词构建相关词库包括为敏感词设计替换词;所述过滤掉该敏感词可为用替换词替换掉敏感词。
可选地,所述敏感词可进行字符串间符号扩展,所述根据敏感词对目标文本进行检测具体为根据字符串间符号扩展后的敏感词对目标文本进行检测,所述符号不具备实际意义。
第二方面,本申请本申请提供基于矩阵的敏感词过滤装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西数字基地出版传媒集团有限公司,未经陕西数字基地出版传媒集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911389334.1/2.html,转载请声明来源钻瓜专利网。