[发明专利]一种垃圾邮件过滤方法有效

专利信息
申请号: 201110450352.3 申请日: 2011-12-29
公开(公告)号: CN103186845A 公开(公告)日: 2013-07-03
发明(设计)人: 林延中;潘庆峰 申请(专利权)人: 盈世信息科技(北京)有限公司
主分类号: G06Q10/10 分类号: G06Q10/10;G06F17/27;H04L12/58
代理公司: 广州三环专利代理有限公司 44202 代理人: 颜希文
地址: 100080 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 垃圾邮件 过滤 方法
【权利要求书】:

1.一种垃圾邮件过滤方法,其特征在于,包括:

S11、从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;

S12、通过统计已知分类的邮件样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;

S13、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;

S14、将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

2.如权利要求1所述的垃圾邮件过滤方法,其特征在于,在步骤S11中,采用排列组合方式从所述中文文本中分离出词语的方法,具体包括:

扫描所述中文文本中的每一个中文文字,以S个中文字符为步长将每一个中文文字后面的文字逐个提取出来,组成文字组合,获得词语;其中,S为自然数。

3.如权利要求2所述的垃圾邮件过滤方法,其特征在于,步骤S12具体包括:

收集已知分类的邮件样本,所述邮件样本包括正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本;

从所述邮件样本中提取分词样本,对每一个分词样本的区分邮件类型的能力进行排序,形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表;每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号,所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;

将所述正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件列表中的分词样本及其重要性位置编号记录到数据库中;

从所述待过滤邮件的中文文本中分离出词语后,根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号,来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号。

4.如权利要求3所述的垃圾邮件过滤方法,其特征在于,步骤S13具体包括:

构建一个四维数组,四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第四行记录所述订阅常邮件分词列表的每个重要性位置区间编号上所分布的词语个数;所述词语是从所述待过滤邮件的中文文本中分离出的词语;

按照先行后列的方式将所述四维数组转换成一维数组,获得所述中文文本的特征向量。

5.如权利要求4所述的垃圾邮件过滤方法,其特征在于,在步骤S14之后,还包括:

S15、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值,若是,则判定所述待过滤邮件为垃圾邮件,否则不是垃圾邮件。

6.如权利要求1~4任一项所述的垃圾邮件过滤方法,其特征在于,所述垃圾邮件过滤方法还包括: 

S21、从待过滤邮件中提取英文字符,组合成英文文本,且以标点符号和空格分隔每个分词,从所述英文文本中分离出词语;

S22、通过统计已知分类的邮件样本,获得所述英文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;

S23、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述英文文本的特征向量;

S24、将所述英文文本的特征向量输入支持向量机模型,获得所述英文文本分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

7.如权利要求6所述的垃圾邮件过滤方法,其特征在于,在步骤S24之后,还包括:

S25、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值;若是,则判定所述待过滤邮件为垃圾邮件;若否,则执行S26;

S26、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值;若是,则判定所述待过滤邮件为垃圾邮件;否则判定所述待过滤邮件不是垃圾邮件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盈世信息科技(北京)有限公司,未经盈世信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110450352.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top