[发明专利]敏感词的检测方法有效
申请号: | 201910991407.8 | 申请日: | 2019-10-18 |
公开(公告)号: | CN110727766B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 徐钟豪;孟雷;谢忱 | 申请(专利权)人: | 上海斗象信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/9535;G06F40/30;G06F18/214 |
代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
地址: | 201203 上海市浦东新区碧波路6*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 检测 方法 | ||
本发明涉及一种敏感词的检测方法,包括以下步骤:建立敏感词数据库,分为强敏感词数据库和弱敏感词数据库;建立训练模型,训练模型包括预判模型和弱敏感词的检测模型;进行检测,载入训练模型的系统定时爬取待检测网页内容,预判模型判断待检测文本中的词语是否属于敏感词数据库中,并判断其敏感类型;若待检测文本中的词语为强敏感词数据库中的强敏感词,则直接反馈待检测文本所属的强敏感词数据库的类型;若待检测文本中的词语为弱敏感词数据库中的弱敏感词,则将待检测文本输入弱敏感词的检测模型进行检测,由弱敏感词的检测模型判断其敏感可疑度分值并反馈。本发明通过设置预判和检测模型进行判断和检测,提高了敏感词检测的准确性和灵活性。
技术领域
本发明涉及网络安全技术领域,特别涉及一种敏感词的检测方法。
背景技术
为了维护网络的健康环境,凡是涉及到网站的内容发布、评论发布等都需 要先进行敏感词检测,防止有不合适的词语出现,这些词语可能包括淫秽类、 博彩类以及反动类等。除了传统的网站更新和评论更新外,网站也可能被恶意 攻击者入侵,在网页上植入一些非法的暗链、广告以及标语等。往往这些恶意 植入都会包含大量敏感信息内容,对于网站管理者通常会选用的检测手段就是 敏感词检测。
传统敏感词检测方式多是基于名单机制的正则匹配,而对于具有多种语义 级别的敏感词则无法准确检出,此种方法仅针对单个敏感词做检测,会造成误 判。例如“黄色”在色情网站中属于淫秽词语,但在正常网站也会经常出现, 比如“黄色的花朵”;例如“小姐”在一些色情广告中属于敏感词语,但在一 些正常文章中也会出现,比如“小姐姐”;再例如本身就属于敏感词语的,但 若是前面跟着否定类词语,在语境上就不应识别为敏感词。此外目前仅有少部 分现有技术中提到使用语义识别概念,但使用的是传统机器学算法对全部敏感 词做模型训练,此种方式没有区分敏感词的类型,所有的敏感词检测都采用同一种方式,不能针对不同的敏感词采用不同的检测方式,增大了检测开销,且 检测准确度较低。
因此,有必要提供一种新的敏感词的检测方法,提供训练模型以提高敏感 词检测的准确性和灵活性。
发明内容
本发明的目的在于提供一种新的敏感词的检测方法,提供训练模型以提高 敏感词检测的准确性和灵活性
为了解决现有技术中存在的问题,本发明提供了一种敏感词的检测方法, 包括以下步骤:
建立敏感词数据库,所述敏感词数据库根据敏感类型分为强敏感词数据库 和弱敏感词数据库;
建立训练模型,所述训练模型包括预判模型和弱敏感词的检测模型,其中, 所述预判模型用于判断待检测文本的敏感类型;设立所述弱敏感词的检测模型 包括:根据所述弱敏感词数据库中的弱敏感词进行检索得到敏感词网页,获取 敏感词网页中包含有弱敏感词的文本信息;对所述文本信息进行打标,采用打 标后的文本信息建立弱敏感词的检测模型;
进行检测,载入所述训练模型的系统定时爬取待检测的网页内容,所述预 判模型判断待检测网页内待检测文本中的词语是否属于敏感词数据库中,并判 断其敏感类型;若待检测文本中的词语为强敏感词数据库中的强敏感词,则直 接反馈待检测文本所属的强敏感词数据库的类型;若待检测文本中的词语为弱 敏感词数据库中的弱敏感词,则将待检测文本输入弱敏感词的检测模型进行检 测,由弱敏感词的检测模型判断其敏感可疑度分值并反馈。
可选的,在所述敏感词的检测方法中,所述强敏感词数据库中的强敏感词 为在任何前后文语义下都敏感的词语,所述强敏感词数据库中的种类包括淫秽 强敏感词库、博彩强敏感词库以及商广强敏感词库;
所述弱敏感词数据库中的弱敏感词为在不同语义下具有不同解释,且具有 至少一种解释导致敏感,也具有至少一种解释导致不敏感的词语,所述弱敏感 词数据库中的种类包括淫秽弱敏感词库、博彩弱敏感词库以及商广弱敏感词库。
可选的,在所述敏感词的检测方法中,获取包含有弱敏感词的文本信息包 括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斗象信息科技有限公司,未经上海斗象信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910991407.8/2.html,转载请声明来源钻瓜专利网。