[发明专利]一种基于网络的垃圾信息过滤方法和装置无效
申请号: | 200610140726.0 | 申请日: | 2006-09-30 |
公开(公告)号: | CN101155182A | 公开(公告)日: | 2008-04-02 |
发明(设计)人: | 董启江;孙永明 | 申请(专利权)人: | 阿里巴巴公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/58 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 开曼群岛大*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 垃圾 信息 过滤 方法 装置 | ||
1.一种基于网络的垃圾信息过滤方法,其特征在于,包括以下步骤:
对目标信息进行分词取得该信息中的特征元素;
根据预置的关键字库取得与所述目标信息特征元素相应的概率值,所述关键字库定期更新;
对所述目标信息特征元素的概率值进行累加,将累加的结果与预定的阀值进行比较,若大于所述预定阀值,则认为该目标信息为垃圾信息。
2.根据权利要求1所述的方法,其特征在于,所述关键字库定期更新是根据收集的垃圾样本信息和非垃圾样本信息,同时根据预先设定的特征词组和/或特征短语分别建立垃圾信息散列表和非垃圾信息散列表,所述散列表中存储有根据所述样本信息分词取得的特征元素,以及该样本信息特征元素在所述样本信息中出现的频率;
根据所述垃圾信息散列表和非垃圾信息散列表建立关键字库,所述关键字库中存储所述样本信息特征元素,以及该特征元素为垃圾信息的概率值。
3.根据权利要求2所述的方法,其特征在于,所述关键字库中的特征元素包括但不限于特征单词或特征词组或特征短语。
4.根据权利要求3所述的方法,其特征在于,还包括:
将所述关键字库解析为关键字散列表,根据所述关键字散列表取得与所述目标信息特征元素相应的概率值。
5.根据权利要求4所述的方法,其特征在于,还包括:
根据所述关键字散列表,将所述目标信息的特征元素及其概率值分别存储在相应的特征单词散列表或特征词组散列表或特征短语散列表;
将特征单词散列表和特征短语散列表以及特征词组散列表中各特征元素的概率值进行累加,用计算的结果与预定的阀值进行比较,若大于该阀值,则认为所述目标信息为垃圾信息。
6.根据权利要求5所述的方法,其特征在于,还包括:
若同一特征元素或其组成同时存在于特征单词散列表、特征词组散列表和特征短语散列表中,则只计算特征短语散列表中该特征元素的概率值;
若同一特征元素或其组成同时存在于特征单词散列表和特征词组散列表中,则只计算特征词组散列表中该特征元素的概率分值。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述阀值是根据所述关键字库取得所述垃圾样本信息和非垃圾样本信息特征元素的概率值,比较该样本信息的概率值与所述阀值,若该样本信息为垃圾样本信息且特征元素的概率值大于所述阀值,则判断正确,否则判断错误;若该样本信息为非垃圾样本信息且特征元素的概率值小于所述阀值,则判断正确,否则判断错误;
根据所述垃圾样本信息和非垃圾样本信息的判断结果统计判断的正确率,若所述正确率小于预定值,则重新设置该阀值;
循环执行该步骤,直到所述正确率大于预定值。
8.一种基于网络的垃圾信息过滤装置,其特征在于,包括:
分词单元,用于对目标信息进行分词并取得该信息的特征元素;
关键字库,用于存储特征元素以及该元素为垃圾信息的概率值;
收集单元,用于收集垃圾样本信息和非垃圾样本信息;
存储单元,用于存储收集单元收集的垃圾样本信息和非垃圾样本信息,所述存储单元还用于存储预置的阀值;
关键字库生成单元,用于生成关键字库并按设定的时间间隔更新关键字库;
计算单元,用于根据分词单元取得的目标信息特征元素从关键字库中取得与该特征元素相应的概率值,并对所述概率值进行累加;
比对单元,用于比对计算单元得出的目标信息特征元素概率值和预置阀值。
9.根据权利要求8所述的方法,其特征在于,所述存储单元还用于存储特征词组和特征短语。
10.根据权利要求9所述的方法,其特征在于,所述关键字库生成单元根据存储单元的垃圾样本信息和非垃圾样本信息并根据特征词组和特征短语生成关键字库。
11.根据权利要求8所述的方法,其特征在于,还包括:
散列表生成单元,用于将关键字库生成关键字散列表以及生成特征单词散列表、特征词组散列表和特征短语散列表。
12.根据权利要求8所述的方法,其特征在于,还包括:阀值设置单元,用于根据关键字库和存储单元的垃圾样本信息和非垃圾样本信息设置阀值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴公司,未经阿里巴巴公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610140726.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:夹持装置
- 下一篇:数据流入量控制装置以及数据流入量控制方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置