[发明专利]一种垃圾文本识别方法和装置有效

申请号：	201710273503.X	申请日：	2017-04-21
公开（公告）号：	CN107239440B	公开（公告）日：	2021-05-25
发明（设计）人：	斯义谱;郑侃侃	申请（专利权）人：	同盾控股有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/289;G06F40/30;G06F16/9535
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苏培华
地址：	310000 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种垃圾文本识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种垃圾文本识别方法和系统，该方法和系统应用于互联网，具体为获取互联网的用户输入的文本；对文本的特征进行特征提取，得到文本的多个文本特征；利用预设的垃圾文本识别模型对用户输入的文本进行识别，得到文本的垃圾概率。通过用户输入的文本的垃圾概率和一定的预设标准可以确定出该文本是否为垃圾文本，并可进一步对判定的垃圾文本采取一定的预防措施，从而能够避免垃圾文本对互联网的健康发展带来不利影响。

技术领域

本发明涉及互联网技术领域，特别是涉及一种垃圾文本息识别方法和装置。

背景技术

随着现在通信技术的迅猛发展和互联网的普及，在带给用户更多方便的同时，垃圾文本问题也充斥着人们的视野。具体来说，一些不良用户在互联网上发布大量涉政、涉黄、涉赌、虚假广告、不文明用语等垃圾信息，给互联网的健康发展带来严重的不利影响。因此，有必要对互联网上的垃圾文本进行识别，以便对这些垃圾文本进行过滤或者删除。

发明内容

有鉴于此，本发明提供了一种垃圾文本识别方法和装置，用于对用户上传的文本是否垃圾文本进行识别，以避免垃圾文本对互联网的健康发展带来不利影响。

为了解决上述问题，本发明公开了一种垃圾文本识别方法，应用于互联网，所述方法具体包括步骤：

获取互联网的用户输入的文本；

对所述文本的特征进行特征提取，得到所述文本的多个文本特征；

利用预设的垃圾文本识别模型对所述文本特征进行识别，得到所述文本的垃圾概率。

优选的，所述对所述文本的特征进行特征提取，包括：

利用预先构建的语料库、停用词表、关键词表和变异词表对所述文本进行特征提取，得到所述多个文本特征。

优选的，所述关键词表的构建方法包括如下步骤：

根据所述语料库对所述文本进行分词处理，并统计所述分词处理得到的每个词或字符所出现的频次；

将通过分词处理提取出的各个类别的词、字符和词组合作为关键词；

根据所述关键词和所述频次得到所述关键词的垃圾概率；