[发明专利]一种垃圾邮件过滤方法有效

专利信息
申请号: 201110450352.3 申请日: 2011-12-29
公开(公告)号: CN103186845A 公开(公告)日: 2013-07-03
发明(设计)人: 林延中;潘庆峰 申请(专利权)人: 盈世信息科技(北京)有限公司
主分类号: G06Q10/10 分类号: G06Q10/10;G06F17/27;H04L12/58
代理公司: 广州三环专利代理有限公司 44202 代理人: 颜希文
地址: 100080 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 垃圾邮件 过滤 方法
【说明书】:

技术领域

本发明涉及通信技术领域,尤其涉及一种垃圾邮件过滤方法。

背景技术

随着网络的快速发展,使用电子邮件(E-mail)进行通信已十分普遍,图片、文档、影音等各种计算机文件均可通过E-mail的方式传送给接收者,给人们的生活带来了极大的方便。但同时垃圾邮件也随之蔓延,严重威胁到用户邮箱的稳定性及安全性。

中国专利CN201010179995公开一种基于N-GRAM分词模型的反向神经网络垃圾邮件过滤装置,使用N-GRAM分词模型对邮件样本进行分词,并使用TF-IDF(Term Frequency–Inverse Document Frequency)算法对分词进行权重排序,然后使用zipf法则提取最重要的特征分词列表(未被挑中的特征分词则被丢弃)。根据文本中是否包含这些“重要特征分词”构造出文档的特征向量,并以此特征向量进行神经网络的学习和分类,最后输出正常邮件和垃圾邮件两个类别的分类结果。

上述现有技术使用zipf法则来提取最重要的特征分词,会导致某些次重要的特征分词被丢弃,但是这些次重要的特征分词数量较多,总体仍会对分类系统有相当大的贡献。因此,丢弃这些次重要分词,会影响分类器的准确性。而且,在实际应用中,存在部分灰色地带的邮件,比如某些信用卡的积分广告邮件,对于某些用户来说是希望接收的,但是上述现有技术只有垃圾邮件和正常邮件两个分类结果,由于这些灰色地带的邮件是大量群发的,因此分类器会将其归类到垃圾邮件内;此外,上述现有技术使用神经网络对特征向量进行分类,只能获得一个邮件属于垃圾邮件还是正常邮件的分类结果,不能获得分类结果的置信度;而且没有考虑当前大量的垃圾邮件使用html方式包装,并通过添加大量不可见或者不同大小的字体,来干扰文本分类的效果,影响分类器的准确性。

发明内容

本发明实施例提出一种垃圾邮件过滤方法,邮件分类准确,能够提高垃圾邮件的识别准确率。

本发明实施例提供的垃圾邮件过滤方法,包括:

S11、从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;

S12、通过统计已知分类的邮件样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;

S13、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;

S14、将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

在步骤S11中,采用排列组合方式从所述中文文本中分离出词语的方法,具体包括:扫描所述中文文本中的每一个中文文字,以S个中文字符为步长将每一个中文文字后面的文字逐个提取出来,组成文字组合,获得词语;其中,S为自然数。

步骤S12具体包括:

收集已知分类的邮件样本,所述邮件样本包括正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本;

从所述邮件样本中提取分词样本,对每一个分词样本的区分邮件类型的能力进行排序,形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表;每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号,所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;

将所述正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件列表中的分词样本及其重要性位置编号记录到数据库中;

从所述待过滤邮件的中文文本中分离出词语后,根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号,来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号。

进一步的,在步骤S14之后,还包括:

S15、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值,若是,则判定所述待过滤邮件为垃圾邮件,否则不是垃圾邮件。

本发明实施例提供的垃圾邮件过滤方法,从待过滤邮件中提取出中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语,不依赖于中文字典,而是通过排列组合穷举所有可能的分词形式,然后通过统计来确认哪些分词比较重要,不会丢弃次重要的特征分词,将分类结果分成垃圾邮件、正常邮件、广告邮件和订阅邮件四个类型,邮件分类准确。而且使用支持向量机作为特征向量的分类器,能够提高垃圾邮件的识别准确率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盈世信息科技(北京)有限公司,未经盈世信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110450352.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top