[发明专利]垃圾文本检测方法、可读存储介质和计算机设备在审

申请号：	201810217110.1	申请日：	2018-03-16
公开（公告）号：	CN110309297A	公开（公告）日：	2019-10-08
发明（设计）人：	蓝利君;齐逸岩;成杰峰	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/9535;G06F17/27;G06F17/22
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	何平;邓云鹏
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	垃圾文本分类模型待检测文本计算机设备文本向量训练样本样本计算机可读存储介质可读存储介质检测结果识别率检测申请文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种垃圾文本检测方法、计算机可读存储介质和计算机设备，通过获取待检测文本；将所述待检测文本输入通过训练得到的垃圾文本分类模型，获得所述待检测文本的垃圾文本检测结果；训练得到所述垃圾文本分类模型的方式包括：获取候选垃圾文本库中的各候选垃圾文本；确定各候选垃圾文本的文本向量，并基于各候选垃圾文本的文本向量确定各样本垃圾文本；将待训练样本文本输入待训练垃圾文本分类模型，获得所述垃圾文本分类模型，所述待训练样本包括各所述样本垃圾文本。本申请实施例提高了垃圾文本的识别率。

技术领域

本申请涉及互联网技术领域，特别是涉及一种垃圾文本检测方法、计算机可读存储介质和计算机设备。

背景技术

随着移动互联网技术的发展，在线社交网络的规模不断扩大，所包含的恶意用户也成倍增加。这些恶意用户利用社交网络的文字传播功能发布各种带有恶意信息的垃圾文本，如微商广告、金融诈骗信息、色情信息、及自动机生成的带乱码干扰的引流信息等。这些垃圾文本不仅影响着正常用户的社交体验，也会对用户财产安全、甚至社会的稳定造成不同程度的影响。

为此，有必要针对这些垃圾文本进行检测，进而采取相关的措施，传统的垃圾文本检测方式主要建立在基于规则的安全策略上，识别率较低。

发明内容

基于此，有必要针对垃圾文本的识别率较低的问题，提供一种垃圾文本检测方法、计算机可读存储介质和计算机设备。

一种垃圾文本检测方法，包括：

获取待检测文本；

将所述待检测文本输入通过训练得到的垃圾文本分类模型，获得所述待检测文本的垃圾文本检测结果；

训练得到所述垃圾文本分类模型的方式包括：

获取候选垃圾文本库中的各候选垃圾文本；

确定各候选垃圾文本的文本向量，并基于各候选垃圾文本的文本向量确定各样本垃圾文本；

将待训练样本文本输入待训练垃圾文本分类模型，获得所述垃圾文本分类模型，所述待训练样本包括各所述样本垃圾文本。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述垃圾文本检测方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述垃圾文本检测方法的步骤。

上述垃圾文本检测方法、装置、计算机可读存储介质和计算机设备，在训练获得垃圾文本分类模型时，对候选垃圾文本库中各候选垃圾文本进行向量化的处理，从中确定出各个样本垃圾文本，据此将包含确定的各样本垃圾文本的待训练文本输入待训练垃圾文本分类模型获得垃圾文本分类模型，并基于获得的垃圾文本分类模型对待检测文本进行检测，确定出待检测垃圾文本是否为垃圾文本，提高了垃圾文本的识别率。

附图说明

图1为一个实施例中垃圾文本检测方法的应用环境图；

图2为一个实施例中垃圾文本检测方法的流程示意图；

图3为一个实施例中垃圾文本检测方法的垃圾文本分类模型训练流程示意图；

图4为一个实施例中确定候选垃圾文本的文本向量的流程示意图；

图5为一个实施例中确定样本垃圾文本的流程示意图；

图6为一个实施例中确定样本垃圾文本的流程示意图；

图7为一个实施例中垃圾文本检测方法的流程示意图；

图8为一个实施例中垃圾文本检测方法的流程示意图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】