[发明专利]一种文本检测方法、装置及设备在审
申请号: | 202110455055.1 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113177408A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 农斌;王强;潘盛鹏 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 检测 方法 装置 设备 | ||
本申请实施例公开了一种文本检测方法、装置及设备,通过先获取敏感判定项,将目标文本中包括的敏感词元可以构成的敏感判定项确定为该目标文本中的敏感判定项;进而确定目标文本中的敏感判定项的误判定系数和距离衰减系数,并利用误判定系数、距离衰减系数以及敏感等级,计算目标文本的敏感分值;最后利用敏感分值确定目标文本是否为敏感文本。通过预先定义的敏感判定项,可以实现随着敏感判定项的变化及时地调整目标文本的检测,确保目标文本检测的及时性。并且,通过确定目标文本中敏感判定项的误判定系数、距离衰减系数和敏感等级,可以更为准确地确定目标文本是否为敏感文本,减少对于目标文本的误判,提高目标文本检测的准确性。
技术领域
本申请涉及互联网技术领域,具体涉及一种文本检测方法、装置及设备。
背景技术
互联网的信息文本中可能具有不宜公开出现或者不得随意使用、影响网络环境的敏感内容。为了确保互联网的使用环境,需要对发布至互联网的文本进行检测,判断该文本是否是敏感文本。对检测出的敏感文本进行删除或者阻止敏感文本继续发布,确保健康、文明的网络环境。
目前,在进行敏感文本检测时,得到的检测结果可能不够准确,而且检测的方法不能快速响应敏感内容的改变,并随之对检测进行对应的调整。因此,如何在便于调整的基础上实现对敏感文本地准确检测是亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种文本检测方法、装置及设备,能够根据敏感内容的改变对目标文本检测过程进行及时调整,提高目标文本检测的准确率。
为解决上述问题,本申请实施例提供的技术方案如下:
一种文本检测方法,所述方法包括:
获取敏感判定项,每条所述敏感判定项包括至少一个敏感词元,每条所述敏感判定项对应有敏感等级;
检测得到目标文本包括的敏感词元;
在确定所述目标文本包括的敏感词元能够构成的敏感判定项时,将构成的敏感判定项确定为所述目标文本包括的敏感判定项;
确定所述目标文本包括的敏感判定项的误判定系数;
计算所述目标文本包括的敏感判定项的距离衰减系数;
根据所述目标文本包括的各个敏感判定项的误判定系数、距离衰减系数以及敏感等级,计算得到所述目标文本的敏感分值;
如果所述目标文本的敏感分值大于预设阈值,判定所述目标文本为敏感文本。
在一种可能的实现方式中,所述方法还包括:
将各个所述敏感词元添加到自动机中;所述自动机的一条路径包括至少一个汉字节点;所述自动机的一条路径包括的汉字节点按顺序对应于一个所述敏感词元包括的各个汉字;所述自动机的每条路径对应的敏感词元不同;
所述检测得到目标文本包括的敏感词元,包括:
将目标文本输入所述自动机,如果在所述自动机的各条路径中能够得到与所述目标文本包括的连续汉字匹配的第一路径,将所述第一路径对应的敏感词元确定为所述目标文本包括的敏感词元。
在一种可能的实现方式中,所述方法还包括:
将各个所述敏感词元中的每个汉字的汉字拼音串添加到拼音前缀树中;所述拼音前缀树的一条路径包括至少一个字符节点;所述拼音前缀树的一条路径包括的字符节点按顺序对应于一个所述汉字拼音串包括的各个拼音字符;所述拼音前缀树的每条路径对应的汉字拼音串对应于一个或多个同音汉字;
为所述拼音前缀树的每条路径对应的汉字分别分配汉字序号;
将所述汉字序号添加到所述自动机中相应汉字的汉字节点中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110455055.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种古建筑测绘用辅助工具
- 下一篇:一种基于气动肌肉的上肢搬运助力装置