[发明专利]一种基于分类器动态更新的垃圾邮件检测方法及系统无效
| 申请号: | 200810116913.4 | 申请日: | 2008-07-18 |
| 公开(公告)号: | CN101316246A | 公开(公告)日: | 2008-12-03 |
| 发明(设计)人: | 谭营;阮光尘 | 申请(专利权)人: | 北京大学 |
| 主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L12/26 |
| 代理公司: | 北京路浩知识产权代理有限公司 | 代理人: | 王朋飞 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分类 动态 更新 垃圾邮件 检测 方法 系统 | ||
技术领域
本发明涉及电子邮件处理技术领域,具体涉及一种基于分类器动态更新的垃圾邮件检测方法。
随着互联网的日益普及,电子邮件对于每一个人来说就已经成为一种日常通讯的重要媒介和最为便捷的通信手段之一,基本上代替了传统的纸质信件,人们越来越依赖于它和离不开它。但是,电子垃圾邮件的出现却引发了日益严重的问题,严重威胁着人们的正常电子邮件通信。垃圾邮件的膨胀不仅浪费掉大量的存储空间和通信带宽,而且还消耗了大量的用户时间去处理和删除它们。因此,研究对这种垃圾邮件的检测过滤方法就显得十分必要,具有重要意义。
垃圾邮件分类检测在本质是一个模式识别问题。垃圾邮件的分类大体上可以分为邮件特征向量提取和分类器分类两个步骤。分类器具体是由代表邮件分类结果的分类向量组成的,邮件的特征向量输入后,计算分类器中所有分类向量与邮件特征向量的相似度,基于不同的分类准则,具有不同的相似度计算方法,然后将相似度最高的分类向量所代表的分类结果,作为该邮件的分类。如图1所示显示了垃圾邮件检测的系统框架。对于一封待分类邮件,在经过预处理后通过对邮件进行特征向量提取,将邮件表示为分类器可以理解的方式,随后特征向量提取的结果被作为分类器的输入。针对输入分类器会利用预先积累的经验知识(分类向量)对邮件进行一个两类的判定,即是正常邮件或者是垃圾邮件并将分类结果输出给用户。用户根据自身的判断对分类器的分类结果做出反馈。分类器根据反馈的结果做出自身的动态调整。现有技术中的动态调整过程一般是利用新接收的邮件作为
新的训练集生成新的分类器,以反应接收数据的特性变化,该过程中删除了以前构建的分类器中所有的分类向量。
支持向量机作为一种分类工具已经被广泛的应用于各个领域。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。
当前的历史信息通过支持向量和与它们关联的权重来表示。一般来说,支持向量的数量要远小于训练样本的总数。因此,支持向量提供了对数据的一种简洁表示[C.Domeniconi and D.Gunopulos,“Incremental support vector machine construction,”in Proc.IEEEInternational Conference on Data Mining(ICDM’01),San Jose,CA,USA,Dec.2001,pp.589-592]。因此,在每一次增量更新中,描述类边界信息的支持向量以及新到来的数据被作为新的数据集对支持向量机进行更新。
对支持向量机进行增量更新的技术包括误差驱动方法ED(Error-driven technique),固定分割方法FP(Fixed-partitiontechnique),超间隔方法EM(Exceeding-margin technique),超间隔+误差方法EM+E(Exceeding-margin+error technique)等。文献[N.A.Syed,H.Liu,and K.K.Sung,“Incremental learning with supportvector machines,”in Proc.International Joint Conference on ArtificialIntelligence(IJCAI’99),Stockholm,Sweden,1999]在Large-noisy-crossed-norm数据集和UCI机器学习库中的Pima数据集上的实验结果表明,超间隔方法EM更新技术在使用较少的支持向量的情况下取得了和上述其他三种方法类似的性能。
在EM更新技术中,给定t时刻的支持向量机分类器模型SVMt, 算法检查邮件特征向量是否位于SVMt定义的分类间隔内。如果,则将该邮件保留,否则将其丢弃。当保留的位于分类间隔内的邮件数量达到给定的数量ne(ne为正整数)时,触发了SVMt的更新。这时使用SVMt的支持向量连同保留的ne个邮件作为训练数据生成t+1时刻新的分类器模型SVMt+1,该增量更新过程中,同样也删除了以前构建的分类器SVMt中所有的分类向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810116913.4/2.html,转载请声明来源钻瓜专利网。





