[发明专利]一种垃圾文本识别方法和装置有效
| 申请号: | 201710273503.X | 申请日: | 2017-04-21 |
| 公开(公告)号: | CN107239440B | 公开(公告)日: | 2021-05-25 |
| 发明(设计)人: | 斯义谱;郑侃侃 | 申请(专利权)人: | 同盾控股有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G06F40/30;G06F16/9535 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
| 地址: | 310000 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 垃圾 文本 识别 方法 装置 | ||
1.一种垃圾文本识别方法,应用于互联网,其特征在于,所述方法具体包括步骤:
获取互联网的用户输入的文本;
对所述文本的特征进行特征提取,得到所述文本的多个文本特征;
利用预设的垃圾文本识别模型对所述文本特征进行识别,得到所述文本的垃圾概率;
其中,所述对所述文本的特征进行特征提取,包括:
利用预先构建的语料库、停用词表、关键词表和变异词表对所述文本进行特征提取,得到所述多个文本特征;
其中,所述文本特征包括语义文本特征和非语义文本特征,所述利用预设的垃圾文本识别模型对所述文本特征进行识别,包括:
将所述语义文本特征输入预设的语义特征垃圾文本识别模型进行识别,得到第一概率;
进一步,将所述非语义文本特征输入预设的非语义特征垃圾文本识别模型进行识别,得到第二概率;
对所述第一概率和所述第二概率进行综合处理,最终得到所述垃圾概率;
所述语义文本特征仅包含典型词汇,所述非语义文本特征包括关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数中的部分或全部,n为正整数。
2.如权利要求1所述的垃圾文本识别方法,其特征在于,所述关键词表的构建方法包括如下步骤:
根据所述语料库对所述文本进行分词处理,并统计所述分词处理得到的每个词或字符所出现的频次;
将通过分词处理提取出的各个类别的词、字符和词组合作为关键词;
根据所述关键词和所述频次得到所述关键词的垃圾概率;
将所述关键词及其对应的所述垃圾概率加入预设的表格,得到所述关键词表。
3.如权利要求2所述的垃圾文本识别方法,其特征在于,所述非语义特征垃圾文本识别模型为根据非语义文本特征、运用机器学习模型训练得到。
4.如权利要求1~3任一所述的垃圾文本识别方法,其特征在于,在所述对所述文本的特征进行计算步骤之前,还包括:
对所述文本进行预处理,剔除其中无益于垃圾识别的字符。
5.一种垃圾文本识别系统,应用于互联网,其特征在于,所述系统具体包括:
文本获取模块,用于获取互联网的用户输入的文本;
特征提取模块,用于对所述文本的特征进行特征提取,得到所述文本的多个文本特征;
特征识别模块,用于利用预设的垃圾文本识别模型对所述文本特征进行识别,得到所述文本的垃圾概率;
其中,所述特征提取模块包括:
文本特征提取单元,用于利用预先构建的语料库、停用词表、关键词表和变异词表对所述文本进行特征提取,得到所述多个文本特征;
其中,所述文本特征包括语义文本特征和非语义文本特征,所述特征识别模块包括:
第一识别单元,用于将所述语义文本特征输入预设的语义特征垃圾文本识别模型进行识别,得到第一概率;
第二识别单元,用于进一步,将所述非语义文本特征输入预设的非语义特征垃圾文本识别模型进行识别,得到第二概率;
综合处理单元,用于对所述第一概率和所述第二概率进行综合处理,最终得到所述垃圾概率;
所述语义文本特征仅包含典型词汇,所述非语义文本特征包括关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数中的部分或全部,n为正整数。
6.如权利要求5所述的垃圾文本识别系统,其特征在于,所述特征提取模块还包括关键词表构建单元,所述关键词表构建单元包括:
分词处理子单元,用于根据所述语料库对所述文本进行分词处理,并统计所述分词处理得到的每个词或字符所出现的频次;
关键词归类子单元,用于将通过分词处理提取出的各个类别的词、字符和词组合作为关键词;
垃圾概率计算子单元,用于根据所述关键词和所述频次得到所述关键词的垃圾概率;
关键词表构建子单元,用于将所述关键词及其对应的所述垃圾概率加入预设的表格,得到所述关键词表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同盾控股有限公司,未经同盾控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710273503.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于word2vec的舆情倾向性分析方法
- 下一篇:一种词典释义方法及装置





