[发明专利]一种垃圾邮件检测方法无效
申请号: | 200810115584.1 | 申请日: | 2008-06-25 |
公开(公告)号: | CN101295381A | 公开(公告)日: | 2008-10-29 |
发明(设计)人: | 谭营;阮光尘 | 申请(专利权)人: | 北京大学 |
主分类号: | G06Q10/00 | 分类号: | G06Q10/00;G06N1/00;G06N3/12 |
代理公司: | 北京路浩知识产权代理有限公司 | 代理人: | 戚传江 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾邮件 检测 方法 | ||
技术领域
本发明涉及电子邮件处理技术领域,具体涉及一种基于邮件浓度特征向量的垃圾邮件检测方法。
背景技术
随着互联网的日益普及,电子邮件对于每一个人来说就已经成为一种日常通讯的重要媒介和最为便捷的通信手段之一,基本上代替了传统的纸质信件,人们越来越依赖于它和离不开它。但是,电子垃圾邮件的出现却引发了日益严重的问题,严重威胁着人们的正常电子邮件通信。垃圾邮件的膨胀不仅浪费掉大量的存储空间和通信带宽,而且还消耗了大量的用户时间去处理和删除它们。因此,研究对这种垃圾邮件的检测过滤方法就显得十分必要,具有重要意义。
垃圾邮件分类检测在本质是一个模式识别问题。垃圾邮件的分类大体上可以分为邮件特征提取和分类器分类两个步骤。如图1所示显示了垃圾邮件检测的系统框架。对于一封待分类邮件,在经过预处理后通过对邮件进行特征提取将邮件表示为分类器可以理解的方式,随后特征提取的结果被作为分类器的输入。针对输入分类器会利用预先积累的经验知识对邮件进行一个两类的判定,即是正常邮件或者是垃圾邮件并将分类结果输出给用户。用户根据自身的判断对分类器的分类结果做出反馈。分类器根据反馈的结果做出自身的动态调整。
特征提取将邮件从原始形式转化为分类器可以理解的方式。在特征提取之前需要对邮件进行一定的预处理,如主题部分和邮件体部分的提取,分词处理,附件解码等。预处理之后通过某种提取方法对邮件的特征进行分析。
对于特征提取,将现有常用的方法将其划分为三个类别:(1)简 单方法,包括Munging、列表、别名等,直接使用邮件的某些部分来构造特征,如列表法允许白名单上的合法邮件发送者,过滤黑名单上的垃圾邮件发送者,同时,暂时搁置灰名单上的未确定身份的发送者;(2)词频统计方法,在许多垃圾邮件检测方法中,一个词w被定义为一个特征,并且一个包含若干词的词向量x被当作特征向量来表示邮件,有许多词频统计的方法来构建向量x,如标识一个单词在一封邮件中出现次数的词频、标识一个词频在所有文档中出现的总次数的-反转文档频率和标识一个单词是否在邮件中出现的二元表示法;(3)启发式方法,和词频统计关注与候选词的选择不同,启发式的方法挖掘邮件中的语义信息,在训练阶段生成的模式被用于在运行阶段进行匹配,然而,挖掘出适合分类的模式通常是比较困难的,Yeh等通过邮件头中的如下几个部分来挖掘垃圾邮件发送者的行为模式:(1)From,(2)To,(3)Reply-To,(4)Delivered-To,(5)Return-Path,(6)Received,(7)Data。在上述部分中,正常邮件具有正常的行为模式,反之,垃圾邮件具有异常的行为模式。
对于分类器设计,对应地将其划分为:简单方法、智能方法和混合方法。和分类器设计相比,特征构造是和应用背景密切相关的并且会对分类器的最终性能产生巨大的影响。准确定义的特征可以很好的体现样本个体之间的差别因此可以获得良好的性能。同时,这也简化了分类器的设计并且保障了泛化性能。
然而许多特征提取方法利用词频统计形成词向量并随后作为后端分类算法的特征向量。虽然诸如停止列表,词干处理,互信息量,信息获取等方法被用于对候选词进行选择以减低维数,但最终形成的特征向里的维数通常还是在千位数的量级。启发式的方法在一定程度上降低了维数巨大的问题,但是学习得到的模式集合和待分类邮件的模式之间的匹配通常是十分耗时的,尤其是当这个模式集合比较庞大的时候。同时,挖掘准确的模式也是十分困难的。
发明内容
本发明的目的是提供一种垃圾邮件检测方法,该方法是基于垃圾邮件浓度特征向量的,该浓度特征特征向量以二元浓度高效地表示邮件所述的类别,不仅在训练过程与检测过程速度快,而且精度高,高效迅速地实现了垃圾邮件检测。
为实现上述目的,本发明采用如下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810115584.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理