[发明专利]流形表面上基于测地距离的K-means聚类多样化检索方法有效
| 申请号: | 201210172266.5 | 申请日: | 2012-05-30 |
| 公开(公告)号: | CN102750327A | 公开(公告)日: | 2012-10-24 |
| 发明(设计)人: | 赵仲秋;马林海;吴信东;高隽 | 申请(专利权)人: | 合肥工业大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 安徽合肥华信知识产权代理有限公司 34112 | 代理人: | 余成俊 |
| 地址: | 230009 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 流形 表面上 基于 距离 means 多样化 检索 方法 | ||
1.一种流形表面上基于测地距离的K-means聚类多样化检索方法,其特征在于,具体包括以下步骤:
(1)首先对训练数据集进行特征提取,利用有不同的参数的SVM分类器对提取的特征进行训练学习;
(2)用认证集数据对SVM分类器的参数进行筛选,选出最优参数作为最佳SVM分类器;
(3)对输入的测试图像进行特征提取,并作为最佳SVM分类器的输入数据,从而获得数据库中图像与输入图像之间的相关度大小排序;
(4)利用DB指标对缓冲池大小参数进行筛选;
选择缓冲池大小时,要用到两个评价指标:前n幅图像的检索精度Pn,以及前n幅图像覆盖的子概念数CRn;通过SVM分类器检索之后,设置候选缓冲池大小为多组数值,并对缓冲池中图像数据分别进行聚类,计算DB值,比较结果,得出最优缓冲池大小r;
使用测地距离替代欧式距离,并应用于p值的选取以及缓冲池大小的选择,算法如下:
令Cj为向量的聚类,Xj是分配给Ci的一个n维特征向量;
其中Ai是Ci的聚类中心,Ti是类i的大小,Si是一种聚类内部的分散度量,dG(Xj,Ai)为两点间的测地距离;
其中Mij 为Ci与Cj间的距离大小; am,i是Ai中的第m个元素,并且A中有n个这样的元素,这里的m表明数据的特征,并且Mi,j本质上是当p=2时,类i和j的中心之间的测地距离;
根据定义, Mi,j表示第i个聚类和第j个聚类的距离,理想情况下,是使各类间的散度最大, Si表示类i的类内散度,应使其尽可能小;
(5)对相关度大小按降序排列,选取缓冲池中的图像,利用DB指标对改进的K-means聚类的p参数进行选择,从而获得此部分图像的各聚类中心;
①k-means聚类方法的目标是将流形上的一组样本点(X1,X2,... XN)(其中每个样本点是一个d维的实向量)分割为k个类集(k<=n),类集为S={S1,S2,…Sk},计算数据点到该数据点所在类中心的流形表面距离,使所有点距聚类中心的测地距离值最小:
其中,μi 是类集,Si的平均值,dG(Xj,Ai)为两点间的测地距离;
算法流程描述如下:
首先输入:t, data[n];
1) 选择t个初始中心点,例如c[0]=data[0],…c[k-1]=data[t-1];
2) 对于data[0]….data[n], 分别与c[0]…c[t-1]比较,若与c[i]沿流形表面的距离最小,就标记为i;
3) 对于所有标记为i点,重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数;
4) 重复2)、3),直到所有c[i]值的变化小于给定阈值;
②p值的选取:
根据前面所得,固定缓冲池大小为r,为了找到每个主题的最优参数p,采用不同的p值系统的计算图像集之中的不同主题类别的DB指标,设置p值为不同数值,得到不同p值下不同主题所对应的DB值,从而选择出参数p;
(6)利用测地距离得出流形上距每个聚类中心最近的图像;
(7)得到最终排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210172266.5/1.html,转载请声明来源钻瓜专利网。





