[发明专利]基于最邻近标签传播算法的图像型垃圾邮件检测方法有效
申请号: | 201310001117.7 | 申请日: | 2013-01-05 |
公开(公告)号: | CN103150574A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 张卫丰;钱小燕;周国强;张迎周;王子元;周国富;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;H04L12/58 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 邻近 标签 传播 算法 图像 垃圾邮件 检测 方法 | ||
1.一种利用基于最邻近标签传播算法检测图像型垃圾邮件的方法,其特征在于该方法包含的步骤为:
步骤1)训练已知类别数据集,获取聚类中心点信息,其中类别分为正常图片和垃圾图片:
步骤1.1)输入已知类别数据集中的正常图片和垃圾图片;
步骤1.2)提取每幅图片的加速鲁棒性特征描述符信息:
步骤1.2.1)获取输入的图片;
步骤1.2.2)获取输入图片的积分图片;
步骤1.2.3)获取积分图片的像素点;
步骤1.2.4)输入图片的第一个像素点;
步骤1.2.5)判断图片该像素点是否存在,如果存在,转步骤1.2.6),否则,转步骤1.2.14);
步骤1.2.6)计算该像素点的海森矩阵及行列式值;
步骤1.2.7)判断该点是否是极值点,如果是,转步骤1.2.8),否则,转步骤1.2.13);
步骤1.2.8)确认该极值点为加速鲁棒性特征点;
步骤1.2.9)获取该特征点在原始图片中的位置、尺度信息;
步骤1.2.10)获取该特征点在原始图片中的主方向;
步骤1.2.11)根据该特征点的位置、尺度、主方向信息,计算该特征点的加速鲁棒性特征描述符;其中,加速鲁棒性特征描述符采用64维描述向量存储;
步骤1.2.12)输入图片下一个像素点,转步骤1.2.5);
步骤1.2.13)系统自动舍弃该点,转步骤1.2.12);
步骤1.2.14)输出图片的所有加速鲁棒性特征点描述符信息;
步骤1.3)随机初始化聚类中心点,根据均值聚类算法,同时聚类已知类别数据集中所有图片的加速鲁棒性特征描述符:
步骤1.3.1)获取需要聚类的所有加速鲁棒性特征点描述符信息;
步骤1.3.2)获取聚类中心点的个数;
步骤1.3.3)输入第一个加速鲁棒性特征点信息;
步骤1.3.4)判断该加速鲁棒性特征点是否存在,如果存在,转步骤1.3.5),否则,转步骤1.3.9);
步骤1.3.5)分别计算该加速鲁棒性特征点到所有聚类中心点的距离;
步骤1.3.6)选择最短距离,获取与最短距离相应的聚类中心信息;
步骤1.3.7)将该加速鲁棒性特征点聚类到该聚类中心中;
步骤1.3.8)输入下一个加速鲁棒性特征点,转步骤1.3.5);
步骤1.3.9)总结每个聚类中心中的加速鲁棒性特征点描述符信息;
步骤1.3.10)更新所有聚类中心点信息:将每个聚类中心中的加速鲁棒性特征点描述符信息求和再取平均;
步骤1.3.11)输出聚类后的所有的加速鲁棒性特征描述符信息;
步骤1.4)输出所有的聚类中心点信息,即聚类后的所有的加速鲁棒性特征描述符信息;
步骤2)训练已知类别数据集和测试数据集,获取每幅图片均值聚类后的加速鲁棒性特征描述符信息:
步骤2.1)输入已知类别数据集中的正常图片和垃圾图片、测试数据集中的测试图片;
步骤2.2)标签图片:若输入的图片属于正常图片数据集,则标签为0,若输入的图片属于垃圾图片数据集,则标签为1,若输入的图片属于测试图片数据集,则默认为垃圾图片,标签为1;
步骤2.3)提取每幅图片的加速鲁棒性特征描述符信息,具体提取方法采用步骤1.2)中的步骤1.2.1)至步骤1.2.14);
步骤2.4)获取聚类中心点信息,具体获取方法采用步骤1)中的步骤1.1)至步骤1.4);
步骤2.5)根据聚类中心点信息,使用均值聚类算法,聚类每幅图片的加速鲁棒性特征描述符,具体聚类方法采用步骤1.3.1)至步骤1.3.11);
步骤2.6)输出每幅图片均值聚类后的加速鲁棒性特征描述符信息;
步骤3)基于最邻近的标签传播算法分类图片:
步骤3.1)获取所有图片聚类后的加速鲁棒性特征描述符信息;其中,所有图片包括已知类别数据集中的图片和测试数据集中的图片;
步骤3.2)初始化已知类别数据集标签矩阵Ylc:
其中,yij表示类别数据集标签矩阵Ylc的第i行第j列的元素值;l表示已知类别数据集中的图片数;c=2,表示分类的类别数,共两类,分为正常图片类别(j=0)和垃圾图片类别(j=1);
步骤3.3)初始化标签概率分布矩阵LPnc:
其中,lpij表示标签概率分布矩阵LPnc的第i行第j列的元素值;n表示已知类别数据集和测试数据集中的所有图片数;c=2,表示分类的类别数;yij计算过程见公式(1);
步骤3.4)根据图片的加速鲁棒性特征描述符,计算图片之间的相似度Wnn:
其中,wij表示相似度矩阵Wnn的第i行第j列的元素值;n表示已知类别数据集和测试数据集中的所有图片数;fih表示第i张图片的第h个加速鲁棒性特征描述符信息,具体提取过程采用步骤2)的步骤2.1)至步骤2.6);
步骤3.5)根据相似度矩阵Wnn,计算图片之间的相似度排列矩阵:
其中,表示相似度排列矩阵的第i行第j列的元素值;n表示已知类别数据集和测试数据集中的所有图片数;Wnn是相似度矩阵,wij表示第i幅图片与第j幅图片之间的相似度,计算过程为公式(3);
步骤3.6)根据相似度排列矩阵,计算图片之间的相似度K排列矩阵Pnn:
其中,Pij表示相似度K排列矩阵Pnn的第i行第j列的元素值;n表示已知类别数据集和测试数据集中的所有图片数;表示第i幅图片与第j幅图片之间的相似度排列位置,计算过程见公式(4);K=已知类别的图像数+测试的图像数/10,表示表示选取与图像相似度最相近的图像幅数;
步骤3.7)根据相似度矩阵Wnn,计算图片之间的传播概率矩阵Tnn:
其中,tij表示传播概率矩阵Tnn的第i行第j列的元素值;n表示已知类别数据集和测试数据集中的所有图片数;wij表示第i幅图片与第j幅图片之间的相似度,计算过程见公式(3);
步骤3.8)将每张图片视为一个节点,生成带权完全连接图;
步骤3.9)根据每个节点的标签,进行标签传播:
步骤3.9.1)根据相似度排列矩阵,确定每个节点最邻近的节点个数;
步骤3.9.2)生成最邻近图;
步骤3.9.3)更新标签概率分布矩阵LPnc:
其中,lpij表示标签概率分布矩阵LPnc的第i行第j列的元素值;n表示已知类别数据集和测试数据集中的所有图片数;c=2,表示分类的类别数;tij表示第i幅图片与第j幅图片之间的传播概率,计算过程为公式(6);pij表示第i幅图片与第j幅图片之间的相似度的排列位置是否属于前K个,计算过程为公式(5),K=已知类别的图像数+测试的图像数/10,表示表示选取与图像相似度最相近的图像幅数;
步骤3.9.4)限制已知类别数据,再次更新标签概率分布矩阵LPnc:
其中,lpij表示标签概率分布矩阵LPnc的第i行第j列的元素值;n表示已知类别数据集和测试数据集中的所有图片数;c=2,表示分类的类别数;yij表示第i幅图片是否属于类别j,计算过程见公式(1);
步骤3.9.5)判断标签概率分布矩阵是否收敛,如果收敛,转步骤3.9.6),否则,转步骤3.9.3);
步骤3.9.6)根据标签概率分布矩阵,输出测试图片的标签;
步骤4)根据测试图片的标签,将测试图片进行正常图片与垃圾图片分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310001117.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:无刷电机转子装置
- 下一篇:永磁电机转子及磁钢防护结构加工装置