[发明专利]一种用于聚类的基于非负矩阵分解的降维方法无效

专利信息
申请号: 201010167504.4 申请日: 2010-05-06
公开(公告)号: CN101853239A 公开(公告)日: 2010-10-06
发明(设计)人: 郭跃飞;朱真峰;薛向阳 申请(专利权)人: 复旦大学
主分类号: G06F15/18 分类号: G06F15/18
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;盛志范
地址: 20043*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 基于 矩阵 分解 方法
【说明书】:

技术领域

发明属于统计模式识别与机器学习技术领域,具体涉及一种用于聚类的基于非负矩阵分解的降维方法。

背景技术

聚类是机器学习领域最基本的研究任务之一。在实际应用中,数据的每一维都表示一个相关的特征。通常情况下,难以简单地判断哪些特征有利于聚类,一个常用的方法就是尽可能多地采集数据特征,然后进行聚类。因此,数据特征一般是高维的,而高维的数据特征通常带来两方面的问题:1)存储和计算代价较高,2)维数灾难问题。在实际应用中,维数灾难问题是许多模式识别方法面临的主要问题之一,如步态识别、图像分类和文本处理等。尤其是面对高维的有限样本时,维数灾难更加突出,它直接导致聚类性能的下降。降维就是研究如何把高维数据压缩映射到低维子空间中,从而更有效地完成聚类等任务。这种映射可以是线性或非线性的。由于线性降维方法简单有效,它广泛应用于机器学习和模式识别的各个领域。

当前,除了上述的线性或非线性的降维方法外,从不同的角度,又可分为以下几类:如,基于是否使用类标号信息,可分为无监督,半监督和监督方法。本发明考虑的是数据的非负性。许多方法具有任意的符号,但像非负矩阵分解(nonnegative matrix factorization,NNMF)方法能够保持数据符号的非负性,这反映了文本,图像等数据的基本特征。

主成份分析(principal component analysis,PCA)经典的无监督线性降维方法是[1]。降维涉及的基本问题之一是如何选择适当的维数r,PCA方法通过分析特征值易于得到r值。最终,原特征空间的r维线性子空间按照最小平方误差原则能够最好地表示所有的原数据。谱分析方法具有相似的选取低维数目的方法[2]。谱方法有坚实的理论基础和广泛的应用且易于执行。

另一种流行的子空间降维方法是线性判别分析(Fisher’s linear discriminant analysis,LDA)[3]。这种方法能够在低维投影空间中保持类信息的相关结构。当训练样本不充分时,得可采用半监督方法[4]。对比而言,PCA和LDA是线性降维方法,LDA明确地对类间差异进行建模,而PCA并不考虑类信息。PCA方法对于数据重建(reconstruction)是最优的,但它不适合类的分离与识别。

上面考虑了线性情况,当数据集不能够有效地用样本均值和协方差矩阵表示时,或者,数据中包含复杂特征时,线性方法变得低效。在这种情况下,可利用核技巧(kernel trick),如基于核的主成份分析(kernel PCA)[5]。其它的非线性技术如局部线性嵌入(locally linearembedding,LLE)[6]和人工神经网络(artificial neural network,ANN)[7]也是常用的方法。LLE方法保持了降维前后的近邻关系。ANN方法模拟了神经系统可朔性(如,学习)机制。但ANN模型的训练一般是耗时的。

本发明聚焦于非负矩阵分解方法[8]。NNMF方法可把数据矩阵Xn×m分解为Cn×r×Mr×m,当n和m分别表示维数和样本数时,C是基矩阵而M是系数矩阵。NNMF方法的流行在于其简单实用性。为了解决应用中的问题,标准的NNMF中加入了不同的约束或参数。如,Li等通过在基和系数矩阵上加入三个新的约束提出了局部NNMF(localNNMF,LNMF),从而发觉有用的局部视觉模式[9];Cichocki等调查了基于α“距离”(α-divergence)[10]的方法(简记为αNMF);Shahnaz等考虑了系数矩阵的稀疏性,提出了GD-CLS算法[11]。基矩阵可视为投影矩阵,所以NNMF可用于降维[12,13]。对比而言,除NNMF方法外,上述的方法都具有任意的符号。但这些基于KL“距离”或欧几里得距离的NNMF方法也有一些共同的问题。首先,它们不同程度地复杂化了原NNMF方法,所以,最终的更新规则比原方法需要更多的计算时间。其次,迭代更新方法说明矩阵C和M都是自身的函数,因此C和M需要同时被初始化,过多的初始未必会产生更有效的矩阵分解。本发明给出了一种基于非负矩阵分解的归一化压缩方法(normalized compressionusing NNMF,记为NCMF),NCMF通过归一化数据维最终得到了简单有效的迭代方法。

发明内容

本发明的目的在于提供一种不增加原有NNMF复杂度而收敛速度快,计算时间省的非负矩阵降维方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010167504.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top