[发明专利]垃圾文本检测方法、可读存储介质和计算机设备在审
申请号: | 201810217110.1 | 申请日: | 2018-03-16 |
公开(公告)号: | CN110309297A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 蓝利君;齐逸岩;成杰峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06F17/27;G06F17/22 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾文本 分类模型 待检测文本 计算机设备 文本向量 训练样本 样本 计算机可读存储介质 可读存储介质 检测结果 识别率 检测 申请 文本 | ||
1.一种垃圾文本检测方法,其特征在于,包括:
获取待检测文本;
将所述待检测文本输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果;
训练得到所述垃圾文本分类模型的方式包括:
获取候选垃圾文本库中的各候选垃圾文本;
确定各候选垃圾文本的文本向量,并基于各候选垃圾文本的文本向量确定各样本垃圾文本;
将待训练样本文本输入待训练垃圾文本分类模型,获得所述垃圾文本分类模型,所述待训练样本包括各所述样本垃圾文本。
2.根据权利要求1所述的垃圾文本检测方法,其特征在于,确定各候选垃圾文本的文本向量,包括:
对各所述候选垃圾文本分别进行预处理,获得各所述候选垃圾文本的文字信息及拼音信息;
确定各候选垃圾文本的文字信息对应的文字特征向量、拼音信息对应的拼音特征向量;
分别组合各候选垃圾文本的文字特征向量和拼音特征向量,获得各候选垃圾文本的文本向量。
3.根据权利要求2所述的垃圾文本检测方法,其特征在于,分别组合各候选垃圾文本的文字特征向量和拼音特征向量,获得各候选垃圾文本的文本向量,包括:
将各候选垃圾文本的文字特征向量和拼音特征向量进行拼接,获得各候选垃圾文本的文本向量。
4.根据权利要求1所述的垃圾文本检测方法,其特征在于,基于各候选垃圾文本的文本向量确定各样本垃圾文本,包括:
基于各候选垃圾文本的文本向量,对各候选垃圾文本进行聚类,获得聚类后的各群簇;
将满足预定条件的各群簇包含的候选垃圾文本,确定为样本垃圾文本。
5.根据权利要求4所述的垃圾文本检测方法,其特征在于,将满足预定条件的各群簇包含的候选垃圾文本,确定为样本垃圾文本,包括:
确定聚类后的各群簇中,群簇大小超过预设阈值的群簇;
将群簇大小超过预设阈值的群簇包含的候选垃圾文本,确定为样本垃圾文本。
6.根据权利要求1所述的垃圾文本检测方法,其特征在于,所述获取候选垃圾文本库中的各候选垃圾文本的步骤之前还包括:
获取恶意账号池中的各问题账号,问题账号包括分析识别出的恶意账号以及接收的举报信息中包含的被举报账号;
将各问题账号发布的文本确定为候选垃圾文本,添加到候选垃圾文本库中。
7.根据权利要求6所述的垃圾文本检测方法,其特征在于,在获得所述待检测文本的垃圾文本检测结果的步骤之后还包括:
在所述垃圾文本检测结果为所述待检测文本为垃圾文本时,获得发布所述待检测文本的发布方的发布方账号;
将所述发布方账号添加到所述恶意账号池中。
8.根据权利要求1所述的垃圾文本检测方法,其特征在于,将所述待检测文本输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果,包括:
对所述待检测文本进行预处理,获得所述待检测文本的文字信息及拼音信息;
确定所述待检测文本的文字信息对应的文字特征向量、拼音信息对应的拼音特征向量;
组合所述待检测文本的文字特征向量和拼音特征向量,获得所述待检测文本的文本向量;
将所述待检测文本的文本向量输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果。
9.根据权利要求1所述的垃圾文本检测方法,其特征在于,所述将所述待检测文本输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果的步骤包括:
将所述待检测文本输入通过训练得到的垃圾文本分类模型,输出所述待检测文本是垃圾文本的垃圾文本概率;
在垃圾文本概率超过概率阈值时,确定所述待检测文本的垃圾文本检测结果为所述待检测文本为垃圾文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810217110.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种事件提取方法及装置
- 下一篇:主题预测方法及装置