[发明专利]基于最邻近标签传播算法的图像型垃圾邮件检测方法有效

申请号：	201310001117.7	申请日：	2013-01-05
公开（公告）号：	CN103150574A	公开（公告）日：	2013-06-12
发明（设计）人：	张卫丰;钱小燕;周国强;张迎周;王子元;周国富;许碧欢;陆柳敏	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;H04L12/58
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	叶连生
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于邻近标签传播算法图像垃圾邮件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明是利用基于最邻近标签传播算法检测图像型垃圾邮件。主要思想是：首先获取图片聚类中心点信息；然后提取所有图片的加速鲁棒性特征描述符信息，进行均值聚类；最后采用基于最邻近的标签传播算法检测图像型垃圾邮件。主要解决了当今的技术对图像型垃圾邮件的检测效率和召回率低等问题，属于数据挖掘和机器学习领域。

背景技术

电子邮件是人们进行网络交流沟通的重要途径，因此随着电子邮件的流行，产生了垃圾邮件，并呈现了快速增长的趋势。虽然带来了巨大的商业、经济及政治利益，但是企业界和个人家庭的用户都花费了数百万美元来对抗垃圾邮件。由于垃圾邮件的增加，ISPs（互联网服务提供商）不得不花费更多的时间和精力处理日益增长的网络流量。因此，如果垃圾邮件继续增长，那么在不久的将来，ISPs可能会难以管理网络流量。

Hrishikesh B.Aradhye等在2005年提出了一种采用基于对象与基于边缘的文本定位方法来挖掘图像中的文本以及颜色特征的思想来对Image Spam（图像型垃圾邮件）进行分类。Giorgio Fumerai等在2006年提出了一种OCR（光学字符识别）技术检测图像型垃圾邮件的文本信息。该技术相对其他过滤系统来说，具有较好的检测效果。

Ngo Phuong Nhung等在2007年提出的通过挖掘图片的边缘特征的方法，使用的分类算法也是SVM（支持向量机）。该方法是通过比较从Email中提取出的图片与样本图片的边缘特征，得到特征向量，然后使用SVM将这些特征向量分别归入Spam与non-Spam类。总的来说使用边缘特征来检测图像Spam能够获取80%的准确率，从不同的图像特征分出Spam类的效率更高并且速度很快。

Battista Biggio等在2007年提出了一种通过计算图像周长复杂度的方法来判别一张图片是否经过了模糊技术的处理。通过文字周长复杂度可以标识断字符或者是噪音对象的出现。由于不能证实经过模糊处理的图像就是携带垃圾信息的图像，这种处理技术只能作为垃圾邮件过滤系统中预处理某个模块。

Eric Medvet等在2008年提出的检测方法结合了文本特征，嵌入的图像特征和全局特征，分别用于计算垃圾图像与合法图像的三方面的特征向量值。特征结合后选取相似度最高的几个特征进行进一步的相似程度计算，提高了检测的效率。然后计算出总的相似程度，若这个值超出了一定的阈值，就说明该邮件为图像型垃圾邮件。

Haiqiang Zuo等在2009年提出了使用一类SVM分类器来对图像型垃圾邮件的局部不变特征进行归类。将异常值检测视为异类分类问题。该算法采用核函数将样本点映射到高维空间以便于分类，采用的核函数是PMK。使用MSER与SURF检测器寻找每张图像的兴趣点，以sift、sc、SURF作为各类特征集合，并使用10交叉法进行可行性验证。该方法主要是针对那些为了逃避基于图像版面相似性的过滤器，而改变图像的总体布局的垃圾邮件。然而，他们并没有改变图像中的某些标记。

总之，以上的所有方法都存在不足之处，要么是不能保证提取图片的特征具有尺度不变性、旋转不变性，要么是不能改变图像一开始就确定的标签。然而，随着技术的发展，图像型垃圾邮件制造者也在不断地增强垃圾邮件逃避检测系统的能力，这就迫切需要一个检测图像型垃圾邮件效率高的系统或方法，从而产生了本文的思想，利用基于最邻近的标签传播算法检测图像型垃圾邮件。

发明内容

技术问题：本发明的目的是提供一种利用基于最邻近的标签传播算法检测图像型垃圾邮件的方法。通过提取图片的加速鲁棒性特征描述符，确保了图片的旋转和尺度不变性；通过获取图片聚类中心点信息，再按照该信息均值聚类图片加速鲁棒性特征描述符，确保了所有图片聚类后的信息具有可比性；通过利用基于最邻近的标签传播，选择与每个图像相似度最接近的一定数量的图像的标签进行传播，提高了标签的传播速率，节省了检测图像型垃圾邮件的时间。

技术方案：本发明利用基于最邻近的标签传播算法检测图像型垃圾邮件所包含的步骤为：

步骤1）训练已知类别数据集，获取聚类中心点信息，其中类别分为正常图片和垃圾图片：

步骤1.1）输入已知类别数据集中的正常图片和垃圾图片；

步骤1.2）提取每幅图片的加速鲁棒性特征描述符信息：

步骤1.2.1）获取输入的图片；

步骤1.2.2）获取输入图片的积分图片；

步骤1.2.3）获取积分图片的像素点；

步骤1.2.4）输入图片的第一个像素点；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310001117.7/2.html，转载请声明来源钻瓜专利网。