[发明专利]一种用于聚类的基于非负矩阵分解的降维方法无效
申请号: | 201010167504.4 | 申请日: | 2010-05-06 |
公开(公告)号: | CN101853239A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 郭跃飞;朱真峰;薛向阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
地址: | 20043*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 基于 矩阵 分解 方法 | ||
技术领域
本发明属于统计模式识别与机器学习技术领域,具体涉及一种用于聚类的基于非负矩阵分解的降维方法。
背景技术
聚类是机器学习领域最基本的研究任务之一。在实际应用中,数据的每一维都表示一个相关的特征。通常情况下,难以简单地判断哪些特征有利于聚类,一个常用的方法就是尽可能多地采集数据特征,然后进行聚类。因此,数据特征一般是高维的,而高维的数据特征通常带来两方面的问题:1)存储和计算代价较高,2)维数灾难问题。在实际应用中,维数灾难问题是许多模式识别方法面临的主要问题之一,如步态识别、图像分类和文本处理等。尤其是面对高维的有限样本时,维数灾难更加突出,它直接导致聚类性能的下降。降维就是研究如何把高维数据压缩映射到低维子空间中,从而更有效地完成聚类等任务。这种映射可以是线性或非线性的。由于线性降维方法简单有效,它广泛应用于机器学习和模式识别的各个领域。
当前,除了上述的线性或非线性的降维方法外,从不同的角度,又可分为以下几类:如,基于是否使用类标号信息,可分为无监督,半监督和监督方法。本发明考虑的是数据的非负性。许多方法具有任意的符号,但像非负矩阵分解(nonnegative matrix factorization,NNMF)方法能够保持数据符号的非负性,这反映了文本,图像等数据的基本特征。
主成份分析(principal component analysis,PCA)经典的无监督线性降维方法是[1]。降维涉及的基本问题之一是如何选择适当的维数r,PCA方法通过分析特征值易于得到r值。最终,原特征空间的r维线性子空间按照最小平方误差原则能够最好地表示所有的原数据。谱分析方法具有相似的选取低维数目的方法[2]。谱方法有坚实的理论基础和广泛的应用且易于执行。
另一种流行的子空间降维方法是线性判别分析(Fisher’s linear discriminant analysis,LDA)[3]。这种方法能够在低维投影空间中保持类信息的相关结构。当训练样本不充分时,得可采用半监督方法[4]。对比而言,PCA和LDA是线性降维方法,LDA明确地对类间差异进行建模,而PCA并不考虑类信息。PCA方法对于数据重建(reconstruction)是最优的,但它不适合类的分离与识别。
上面考虑了线性情况,当数据集不能够有效地用样本均值和协方差矩阵表示时,或者,数据中包含复杂特征时,线性方法变得低效。在这种情况下,可利用核技巧(kernel trick),如基于核的主成份分析(kernel PCA)[5]。其它的非线性技术如局部线性嵌入(locally linearembedding,LLE)[6]和人工神经网络(artificial neural network,ANN)[7]也是常用的方法。LLE方法保持了降维前后的近邻关系。ANN方法模拟了神经系统可朔性(如,学习)机制。但ANN模型的训练一般是耗时的。
本发明聚焦于非负矩阵分解方法[8]。NNMF方法可把数据矩阵Xn×m分解为Cn×r×Mr×m,当n和m分别表示维数和样本数时,C是基矩阵而M是系数矩阵。NNMF方法的流行在于其简单实用性。为了解决应用中的问题,标准的NNMF中加入了不同的约束或参数。如,Li等通过在基和系数矩阵上加入三个新的约束提出了局部NNMF(localNNMF,LNMF),从而发觉有用的局部视觉模式[9];Cichocki等调查了基于α“距离”(α-divergence)[10]的方法(简记为αNMF);Shahnaz等考虑了系数矩阵的稀疏性,提出了GD-CLS算法[11]。基矩阵可视为投影矩阵,所以NNMF可用于降维[12,13]。对比而言,除NNMF方法外,上述的方法都具有任意的符号。但这些基于KL“距离”或欧几里得距离的NNMF方法也有一些共同的问题。首先,它们不同程度地复杂化了原NNMF方法,所以,最终的更新规则比原方法需要更多的计算时间。其次,迭代更新方法说明矩阵C和M都是自身的函数,因此C和M需要同时被初始化,过多的初始未必会产生更有效的矩阵分解。本发明给出了一种基于非负矩阵分解的归一化压缩方法(normalized compressionusing NNMF,记为NCMF),NCMF通过归一化数据维最终得到了简单有效的迭代方法。
发明内容
本发明的目的在于提供一种不增加原有NNMF复杂度而收敛速度快,计算时间省的非负矩阵降维方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010167504.4/2.html,转载请声明来源钻瓜专利网。