[发明专利]一种用于聚类的基于非负矩阵分解的降维方法无效

申请号：	201010167504.4	申请日：	2010-05-06
公开（公告）号：	CN101853239A	公开（公告）日：	2010-10-06
发明（设计）人：	郭跃飞;朱真峰;薛向阳	申请（专利权）人：	复旦大学
主分类号：	G06F15/18	分类号：	G06F15/18
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;盛志范
地址：	20043***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于基于矩阵分解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于统计模式识别与机器学习技术领域，具体涉及一种用于聚类的基于非负矩阵分解的降维方法。

背景技术

聚类是机器学习领域最基本的研究任务之一。在实际应用中，数据的每一维都表示一个相关的特征。通常情况下，难以简单地判断哪些特征有利于聚类，一个常用的方法就是尽可能多地采集数据特征，然后进行聚类。因此，数据特征一般是高维的，而高维的数据特征通常带来两方面的问题：1)存储和计算代价较高，2)维数灾难问题。在实际应用中，维数灾难问题是许多模式识别方法面临的主要问题之一，如步态识别、图像分类和文本处理等。尤其是面对高维的有限样本时，维数灾难更加突出，它直接导致聚类性能的下降。降维就是研究如何把高维数据压缩映射到低维子空间中，从而更有效地完成聚类等任务。这种映射可以是线性或非线性的。由于线性降维方法简单有效，它广泛应用于机器学习和模式识别的各个领域。

当前，除了上述的线性或非线性的降维方法外，从不同的角度，又可分为以下几类：如，基于是否使用类标号信息，可分为无监督，半监督和监督方法。本发明考虑的是数据的非负性。许多方法具有任意的符号，但像非负矩阵分解(nonnegative matrix factorization，NNMF)方法能够保持数据符号的非负性，这反映了文本，图像等数据的基本特征。

主成份分析(principal component analysis，PCA)经典的无监督线性降维方法是[1]。降维涉及的基本问题之一是如何选择适当的维数r，PCA方法通过分析特征值易于得到r值。最终，原特征空间的r维线性子空间按照最小平方误差原则能够最好地表示所有的原数据。谱分析方法具有相似的选取低维数目的方法[2]。谱方法有坚实的理论基础和广泛的应用且易于执行。

另一种流行的子空间降维方法是线性判别分析(Fisher’s linear discriminant analysis，LDA)[3]。这种方法能够在低维投影空间中保持类信息的相关结构。当训练样本不充分时，得可采用半监督方法[4]。对比而言，PCA和LDA是线性降维方法，LDA明确地对类间差异进行建模，而PCA并不考虑类信息。PCA方法对于数据重建(reconstruction)是最优的，但它不适合类的分离与识别。

上面考虑了线性情况，当数据集不能够有效地用样本均值和协方差矩阵表示时，或者，数据中包含复杂特征时，线性方法变得低效。在这种情况下，可利用核技巧(kernel trick)，如基于核的主成份分析(kernel PCA)[5]。其它的非线性技术如局部线性嵌入(locally linearembedding，LLE)[6]和人工神经网络(artificial neural network，ANN)[7]也是常用的方法。LLE方法保持了降维前后的近邻关系。ANN方法模拟了神经系统可朔性(如，学习)机制。但ANN模型的训练一般是耗时的。

本发明聚焦于非负矩阵分解方法[8]。NNMF方法可把数据矩阵X^n×m分解为C^n×r×M^r×m，当n和m分别表示维数和样本数时，C是基矩阵而M是系数矩阵。NNMF方法的流行在于其简单实用性。为了解决应用中的问题，标准的NNMF中加入了不同的约束或参数。如，Li等通过在基和系数矩阵上加入三个新的约束提出了局部NNMF(localNNMF，LNMF)，从而发觉有用的局部视觉模式[9]；Cichocki等调查了基于α“距离”(α-divergence)[10]的方法(简记为αNMF)；Shahnaz等考虑了系数矩阵的稀疏性，提出了GD-CLS算法[11]。基矩阵可视为投影矩阵，所以NNMF可用于降维[12，13]。对比而言，除NNMF方法外，上述的方法都具有任意的符号。但这些基于KL“距离”或欧几里得距离的NNMF方法也有一些共同的问题。首先，它们不同程度地复杂化了原NNMF方法，所以，最终的更新规则比原方法需要更多的计算时间。其次，迭代更新方法说明矩阵C和M都是自身的函数，因此C和M需要同时被初始化，过多的初始未必会产生更有效的矩阵分解。本发明给出了一种基于非负矩阵分解的归一化压缩方法(normalized compressionusing NNMF，记为NCMF)，NCMF通过归一化数据维最终得到了简单有效的迭代方法。

发明内容

本发明的目的在于提供一种不增加原有NNMF复杂度而收敛速度快，计算时间省的非负矩阵降维方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010167504.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于感性认知的图像检索结果排序方法
下一篇：通信处理器间消息通信方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F15-00 通用数字计算机
G06F15-02 .通过键盘输入的手动操作，以及应用机内程序的计算，例如，袖珍计算器
G06F15-04 .在引入被处理的数据的同时，进行编制程序的，例如，在同一记录载体上
G06F15-08 .应用插接板编制程序的
G06F15-16 .两个或多个数字计算机的组合，其中每台至少具有一个运算器、一个程序器及一个寄存器，例如，用于数个程序的同时处理
G06F15-18 .其中，根据计算机本身在一个完整的运行期间内所取得的经验来改变程序的；学习机器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于聚类的基于非负矩阵分解的降维方法无效

专利文献下载