[发明专利]敏感账号的检测方法、存储介质和计算机设备在审
| 申请号: | 201911323749.9 | 申请日: | 2019-12-20 |
| 公开(公告)号: | CN111079029A | 公开(公告)日: | 2020-04-28 |
| 发明(设计)人: | 唐升吉;黎清顾;曹林 | 申请(专利权)人: | 珠海格力电器股份有限公司;珠海联云科技有限公司 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33;G06Q50/00;G06F40/289 |
| 代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 吴大建;张杰 |
| 地址: | 519000*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 敏感 账号 检测 方法 存储 介质 计算机 设备 | ||
本申请公开一种敏感账号的检测方法、存储介质和计算机设备,该方法包括:获取发表请求所包含的待发表的文本信息,对文本信息进行预处理以得到实词集合;将实词集合中的实词与敏感词库中的敏感词进行匹配,以获取实词集合的整体敏感度;比较整体敏感度与敏感度阈值,根据比较结果确定文本信息的敏感类型,基于文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型;对于疑似敏感账号,获取其发表的历史文本信息,获取历史文本信息中敏感语句的数量与历史文本信息中语句的总数量的比值,比较比值与预设阈值,根据比较结果判定疑似敏感账号为敏感账号或非敏感账号。本实施例有利于根据文本信息准确判断账户的敏感类型。
技术领域
本申请涉及信息处理技术领域,尤其涉及一种敏感账号的检测方法、存储介质和计算机设备。
背景技术
随着互联网技术的高速发展,各种各样的信息资源呈指数级增长,一些敏感信息在网络社区中蔓延开来,对社会的和谐造成极大危害。敏感信息识别方法通过识别敏感信息并进行预警以阻止其传播,对引导网络舆情走向,营造网络社区良好舆情环境有着重要意义。
在对网络社区敏感信息进行识别时,主要的检测方法为:敏感信息关键字匹配技术和传统机器学习检测技术。其中敏感信息关键字匹配技术主要是通过收集预定义的隐私敏感词汇,形成敏感字典,然后将所需要检索的文本在此字典中进行匹配。传统机器学习主要是利用传统机器学习手段,对大量的预定义的隐私或文本进行数据采集,根据采集的数据训练分类模型,利用模型将需要检索的文本进行检测。
由于现有方法仅仅通过文本中的关键字来进行判断,无法准确的追根溯源,对相应的账号做准确地处理。
发明内容
本发明的主要目的是提供一种敏感账号的检测方法、存储介质和计算机设备,以解决对敏感账号检测不准确的问题。
第一方面,本申请的实施方式提供一种敏感账号的检测方法,包括以下步骤:获取发表请求所包含的待发表的文本信息,对所述文本信息进行预处理以得到实词集合;将所述实词集合中的实词与敏感词库中的敏感词进行匹配,以获取所述实词集合的整体敏感度;比较所述整体敏感度与敏感度阈值,根据比较结果确定所述文本信息的敏感类型,基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型,其中,所述敏感类型包括疑似敏感和非敏感;对于疑似敏感账号,获取其发表的历史文本信息,获取所述历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值,比较所述比值与预设阈值,根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号。
可选的,所述对所述文本信息进行预处理以得到实词集合,包括步骤:对所述文本信息进行分词处理,以得到词汇集合;提取所述词汇集合中的实词以组成实词集合。
可选的,所述获取所述实词集合的整体敏感度,包括步骤:获取与所述敏感词库中的敏感词匹配成功的实词个数占所述实词集合中实词总个数的比例值,将所述比例值作为所述实词集合的整体敏感度。
可选的,所述比较所述整体敏感度与敏感度阈值,根据比较结果确定所述文本信息的敏感类型,基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型,包括:当所述整体敏感度小于敏感度阈值时,确定所述文本信息的敏感类型为非敏感文本信息,从而判定发表所述文本信息的相应的账号为非敏感账号;当所述整体敏感度大于或等于敏感度阈值时,确定所述文本信息的敏感类型为疑似敏感文本信息,从而判定发表所述文本信息的相应的账号为疑似敏感账号。
可选的,所述获取历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值,包括步骤:对所述历史文本信息中的每个语句进行分词处理以得到其相应的历史词汇集合;对于每个语句,将历史词汇集合中的词汇与所述敏感词库中的敏感词进行匹配,将匹配成功的词汇与所述历史词汇集合中的词汇总数量的比值作为该语句的语句敏感度,当所述语句敏感度大于或等于预设语句敏感度阈值时,将该语句作为敏感语句进行计数;统计所述历史文本信息中敏感语句的数量,获取所述敏感语句的数量与所述历史文本信息中语句的总数量的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司;珠海联云科技有限公司,未经珠海格力电器股份有限公司;珠海联云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911323749.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于清洗的养猪用保育箱
- 下一篇:一种GIL线路实时监控系统





