[发明专利]一种垃圾信息判断方法和装置以及一种服务器集群有效
申请号: | 201710558595.6 | 申请日: | 2017-06-30 |
公开(公告)号: | CN107256214B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 宋时雨 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279;G06F40/289;G06Q50/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 安之斐;李文娟 |
地址: | 100085*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾 信息 判断 方法 装置 以及 服务器 集群 | ||
1.一种垃圾信息判断方法,包括:
获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;
接收待判断的目标信息;
将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息;
其中,所述获取特征词汇表包括:
获取多条样本信息中每条样本信息的样本信息向量;
对多条样本信息向量计算两两之间的文本相似度,当存在其中两条样本信息向量之间的文本相似度符合预设条件时,将所述两条样本信息向量分别对应的两条样本信息共同列入第一信息集合;
将没有列入第一信息集合的样本信息列入第二信息集合;
根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。
2.如权利要求1所述的方法,其中,所述获取多条样本信息中每条样本信息的样本信息向量包括:
对所述多条样本信息中的每一条样本信息进行分词,获取分词后每个词汇的词向量;
根据每一条样本信息中每个词汇的词向量获取对应的样本信息向量。
3.如权利要求1所述的方法,其中,所述其中两条样本信息向量之间的文本相似度符合预设条件包括:
所述两条样本信息向量之间的文本相似度大于预设阈值。
4.如权利要求1所述的方法,其中,所述根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表包括:
获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表;
针对所述总词汇表中的每个词汇,计算对应所述第一信息集合的卡方统计量,将所述卡方统计量符合预设条件的词汇列入所述特征词汇表。
5.如权利要求4所述的方法,其中,所述方法还包括:
利用所述第二信息集合中符合预设条件的词汇对所述特征词汇表中的词汇进行过滤,得到过滤后的特征词汇表。
6.如权利要求1所述的方法,其中,所述将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息包括:
计算所述目标信息中包含所述特征词汇表中词汇的比例;
当所述比例超过预设阈值时,判断所述目标信息为垃圾信息。
7.一种垃圾信息判断装置,包括:
获取单元,配置为获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;
接收单元,配置为接收待判断的目标信息;
判断单元,配置为将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息;
其中,所述获取单元获取多条样本信息中每条样本信息的样本信息向量;
对多条样本信息向量计算两两之间的文本相似度,当存在其中两条样本信息向量之间的文本相似度符合预设条件时,将所述两条样本信息向量分别对应的两条样本信息共同列入第一信息集合;
将没有列入第一信息集合的样本信息列入第二信息集合;
根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。
8.如权利要求7所述的装置,其中,
所述获取单元对所述多条样本信息中的每一条样本信息进行分词,获取分词后每个词汇的词向量;
根据每一条样本信息中每个词汇的词向量获取对应的样本信息向量。
9.如权利要求7所述的装置,其中,所述其中两条样本信息向量之间的文本相似度符合预设条件包括:
所述两条样本信息向量之间的文本相似度大于预设阈值。
10.如权利要求7所述的装置,其中,
所述获取单元获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表;
针对所述总词汇表中的每个词汇,计算对应所述第一信息集合的卡方统计量,将所述卡方统计量符合预设条件的词汇列入所述特征词汇表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710558595.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置