[发明专利]一种支持增量训练的垃圾图片识别方法和系统有效
申请号: | 201310003154.1 | 申请日: | 2013-01-06 |
公开(公告)号: | CN103020646A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 高洪涛 | 申请(专利权)人: | 深圳市彩讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广东国晖律师事务所 44266 | 代理人: | 赵琼花 |
地址: | 518000 广东省深圳市南山区科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 增量 训练 垃圾 图片 识别 方法 系统 | ||
技术领域
本发明属于反垃圾邮件领域,尤其是涉及到一种支持增量训练的垃圾图片识别方法和系统。
背景技术
在电子邮件领域,垃圾邮件的花样不断翻新,需要反垃圾系统不断的更新技术来识别垃圾邮件。其中垃圾图片的识别和过滤难度更大。图片垃圾或垃圾图片是指,在一张图片上含有被认为是垃圾信息的文字等,例如卖发票、垃圾广告等信息。
垃圾图片较难识别,一方面因为图片处理耗费资源很大;另一方面是因为垃圾图片上的文字往往被彩色复杂的背景图案所包围,使得判断更难。
目前针对垃圾图片的识别方案主要是基于图片特征,提取图片的特征信息,然后通过特征频率的统计来作为垃圾图片的判断依据。这类方法中,关键的是提取何种特征。主要的特征有:
-视觉属性:图片的文字边界、图案边界等;
-底层属性:提取平均颜色、饱和度等;
-纯数字信息:例如图片的md5哈希值,BASE64编码数据等。
上述前两类特征用于识别垃圾图片的准确率较高,但提取效率却很低,有测试表明,这类特征每一项的提取时间都在百毫秒数量级,提取多项就需要秒级别的时间。这样的性能难以应用到实际环境。第三类特征虽然生成效率高,但识别的准确率和很差。
发明内容
本发明的目的在于提供一种支持增量训练的垃圾图片识别方法和系统,提取一些图片有关的弱特征,具有很高的提取效率,同时借助支持向量机在弱特征的基础上同时保证了很高的准确率。同时,对新形式的图片支持增量式学习,动态更新模型,而不需要重新训练。从而对出现的新形式垃圾图片快速的学习,并不影响现有系统的正常工作。
本发明所述的支持增量训练的垃圾图片识别方法,包括步骤:
A)将特征处理模块作为服务进程运行,初始化线性参数初值为零向量;
B)收集的垃圾图片集和正常图片集,由图片处理模块二提取每张图片的特征,提取每张图片的元数据,将特征向量和对应的类别发送给特征处理模块,进行学习;
C)在反垃圾系统中,对于每封经过发垃圾系统的邮件,由图片处理模块一提取图片的特征向量,发送给特征处理模块进行分类,并根据分类结果对邮件进行是否垃圾邮件的判断;
D)如果出现了新形式的垃圾图片,由图片处理模块二提取特征并发给特征处理模块进行增量学习。
所述的特征向量包括图片的宽度、高度、GIF帧数、压缩比。
所述步骤B)通过元数据形成向量特征的步骤包括:
A1)筛选出有区分度的元数据;
A2)消除异常数值;
A3)进行归一化处理。
所述步骤B)进行学习的方法为SVM方法,采用SVM方法学习后,得到分类模型:
其中x是图片的特征向量,y是图片的类别,w是x的系数;xi和yi分别是支持向量的值和支持向量的类别。
本发明所述支持增量训练的垃圾图片识别系统,其特征是:包括用于收集的垃圾图片和正常图片集的图片处理模块二,该图片处理模块二提取每张图片的元数据,形成特征向量,生成训练数据;
对特征向量和对应的类别采用SVM方法进行学习的特征处理模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市彩讯科技有限公司,未经深圳市彩讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310003154.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于单训练样本人脸识别的远程身份认证方法
- 下一篇:一种分矿桶判别系统