[发明专利]一种垃圾文本识别方法和装置有效
申请号: | 201710273503.X | 申请日: | 2017-04-21 |
公开(公告)号: | CN107239440B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 斯义谱;郑侃侃 | 申请(专利权)人: | 同盾控股有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G06F40/30;G06F16/9535 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 310000 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾 文本 识别 方法 装置 | ||
本发明实施例提供了一种垃圾文本识别方法和系统,该方法和系统应用于互联网,具体为获取互联网的用户输入的文本;对文本的特征进行特征提取,得到文本的多个文本特征;利用预设的垃圾文本识别模型对用户输入的文本进行识别,得到文本的垃圾概率。通过用户输入的文本的垃圾概率和一定的预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对互联网的健康发展带来不利影响。
技术领域
本发明涉及互联网技术领域,特别是涉及一种垃圾文本息识别方法和装置。
背景技术
随着现在通信技术的迅猛发展和互联网的普及,在带给用户更多方便的同时,垃圾文本问题也充斥着人们的视野。具体来说,一些不良用户在互联网上发布大量涉政、涉黄、涉赌、虚假广告、不文明用语等垃圾信息,给互联网的健康发展带来严重的不利影响。因此,有必要对互联网上的垃圾文本进行识别,以便对这些垃圾文本进行过滤或者删除。
发明内容
有鉴于此,本发明提供了一种垃圾文本识别方法和装置,用于对用户上传的文本是否垃圾文本进行识别,以避免垃圾文本对互联网的健康发展带来不利影响。
为了解决上述问题,本发明公开了一种垃圾文本识别方法,应用于互联网,所述方法具体包括步骤:
获取互联网的用户输入的文本;
对所述文本的特征进行特征提取,得到所述文本的多个文本特征;
利用预设的垃圾文本识别模型对所述文本特征进行识别,得到所述文本的垃圾概率。
优选的,所述对所述文本的特征进行特征提取,包括:
利用预先构建的语料库、停用词表、关键词表和变异词表对所述文本进行特征提取,得到所述多个文本特征。
优选的,所述关键词表的构建方法包括如下步骤:
根据所述语料库对所述文本进行分词处理,并统计所述分词处理得到的每个词或字符所出现的频次;
将通过分词处理提取出的各个类别的词、字符和词组合作为关键词;
根据所述关键词和所述频次得到所述关键词的垃圾概率;
将所述关键词及其对应的所述垃圾概率加入预设的表格,得到所述关键词表。
优选的,所述文本特征包括语义文本特征和非语义文本特征,所述利用预设的垃圾文本识别模型对所述文本特征进行识别,包括:
将所述语义文本特征输入预设的语义特征垃圾文本识别模型进行识别,得到第一概率;
进一步,将所述非语义文本特征输入预设的非语义特征垃圾文本识别模型进行识别,得到第二概率;
对所述第一概率和所述第二概率进行综合处理,最终得到所述垃圾概率。
优选的,所述非语义特征垃圾文本识别模型为根据预设的多个关键词表、运用机器学习模型训练得到。
优选的,所述多个非语义文本特征包括关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数中的部分或全部,n为正整数。
优选的,在所述对所述文本的特征进行计算步骤之前,还包括:
对所述文本进行预处理,剔除其中无益于垃圾识别的字符。
相应的,为了保证上述方法的实施,本发明还提供了一种垃圾文本识别系统,应用于互联网,所述系统具体包括:
文本获取模块,用于获取互联网的用户输入的文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同盾控股有限公司,未经同盾控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710273503.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于word2vec的舆情倾向性分析方法
- 下一篇:一种词典释义方法及装置