[发明专利]一种支持增量训练的垃圾图片识别方法和系统有效

申请号：	201310003154.1	申请日：	2013-01-06
公开（公告）号：	CN103020646A	公开（公告）日：	2013-04-03
发明（设计）人：	高洪涛	申请（专利权）人：	深圳市彩讯科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广东国晖律师事务所 44266	代理人：	赵琼花
地址：	518000 广东省深圳市南山区科***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种支持增量训练垃圾图片识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于反垃圾邮件领域，尤其是涉及到一种支持增量训练的垃圾图片识别方法和系统。

背景技术

在电子邮件领域，垃圾邮件的花样不断翻新，需要反垃圾系统不断的更新技术来识别垃圾邮件。其中垃圾图片的识别和过滤难度更大。图片垃圾或垃圾图片是指，在一张图片上含有被认为是垃圾信息的文字等，例如卖发票、垃圾广告等信息。

垃圾图片较难识别，一方面因为图片处理耗费资源很大；另一方面是因为垃圾图片上的文字往往被彩色复杂的背景图案所包围，使得判断更难。

目前针对垃圾图片的识别方案主要是基于图片特征，提取图片的特征信息，然后通过特征频率的统计来作为垃圾图片的判断依据。这类方法中，关键的是提取何种特征。主要的特征有：

-视觉属性：图片的文字边界、图案边界等；

-底层属性：提取平均颜色、饱和度等；

-纯数字信息：例如图片的md5哈希值，BASE64编码数据等。

上述前两类特征用于识别垃圾图片的准确率较高，但提取效率却很低,有测试表明，这类特征每一项的提取时间都在百毫秒数量级，提取多项就需要秒级别的时间。这样的性能难以应用到实际环境。第三类特征虽然生成效率高，但识别的准确率和很差。

发明内容

本发明的目的在于提供一种支持增量训练的垃圾图片识别方法和系统，提取一些图片有关的弱特征，具有很高的提取效率，同时借助支持向量机在弱特征的基础上同时保证了很高的准确率。同时，对新形式的图片支持增量式学习，动态更新模型，而不需要重新训练。从而对出现的新形式垃圾图片快速的学习，并不影响现有系统的正常工作。

本发明所述的支持增量训练的垃圾图片识别方法，包括步骤：

A）将特征处理模块作为服务进程运行，初始化线性参数初值为零向量；

B）收集的垃圾图片集和正常图片集，由图片处理模块二提取每张图片的特征，提取每张图片的元数据，将特征向量和对应的类别发送给特征处理模块，进行学习；

C）在反垃圾系统中，对于每封经过发垃圾系统的邮件，由图片处理模块一提取图片的特征向量，发送给特征处理模块进行分类，并根据分类结果对邮件进行是否垃圾邮件的判断；

D）如果出现了新形式的垃圾图片，由图片处理模块二提取特征并发给特征处理模块进行增量学习。

所述的特征向量包括图片的宽度、高度、GIF帧数、压缩比。

所述步骤B）通过元数据形成向量特征的步骤包括：

A1）筛选出有区分度的元数据；

A2)消除异常数值；

A3）进行归一化处理。

所述步骤B）进行学习的方法为SVM方法，采用SVM方法学习后，得到分类模型：

y=Σi=1naiyixixi]]>即w=Σi=1naiyixi]]>