[发明专利]基于最短路径覆盖的测地距离保持算法在审
申请号: | 201810824782.9 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109033349A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 马争鸣;王鑫;车航健;陈映宏;黎伟浚 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 测地距离 低维 低维空间 最短路径 数据点 高维空间 测地线 映射 算法 覆盖 机器学习领域 输入样本 数据降维 最小化 预测 地线 邻域 实测 | ||
本发明涉及机器学习领域中的数据降维问题,提出了一种基于最短路径覆盖的测地距离保持算法。首先从由输入样本构造的邻域图中选取一系列与真实测地线尽量接近的最短路径来覆盖所有的数据点。用MDS保持选取的测地线的起点与终点之间的测地距离将所有的起点和终点映射到低维空间。由每一对起点和终点的低维坐标可以确定低维空间中的一条直线。本发明的主要思想是将高维空间中处于一条测地线上的点映射到低维空间中的一条直线上,故高维空间中数据点的低维坐标可以根据它们与起点之间的测地距离来预测,最后通过最小化数据点的低维坐标与其预测值之间的误差来得到所有数据点的低维坐标。
技术领域
本发明属于机器学习领域,具体涉及流形学习中的一种基于最短路径覆盖的测地距离保持算法。
背景技术
数据降维在机器学习和数据挖掘领域是一种很重要的数据预处理技术,这种技术通过构造一个映射将高维数据映射到低维空间并保持数据中所包含的潜在信息。比较经典的降维方法有主成分分析(PCA)和多维尺度分析(MDS),它们的计算速度快,但对于非线性数据,它们的表现往往不能令人满意。
最近提出的一些基于流形学习的降维算法在处理非线性数据的效果上要大大优于传统的线性降维算法,它们假设数据是分布在高维空间中的一个光滑低维流形上,流形学习算法的目的在于学习到这个低维流形的拓扑结构,并且在将高维数据映射到低维时保持数据样本之间的全局或者局部信息。
在流形学习算法中,等距映射(Isomap)(文献1,Tenenbaum JB,Silva VD,Langford JC(2000)A Global Geometric Framework for Nonlinear DimensionalityReduction.Science 290(5500):2319-2323)通过在高维空间中构造数据的邻域图,用邻域图中数据点之间的最短路径来估算数据点之间的测地距离,并通过MDS保持任意两点之间的测地距离来实现数据从高维空间到低维空间的映射。它能很好的处理非线性数据,但当数据量比较大时,Isomap会面临两个计算上瓶颈:第一是在高维空间中估算任意两个数据点之间的测地距离,第二是计算一个规模与样本数目成正相关的矩阵的特征分解。为减少Isomap的计算复杂度,(文献2,V.de Silva and J.Tenenbaum(2003)Global versus LocalMethods inNonlinear Dimensionality Reduction Proc.Advances in NeuralInformation Processing Systems,vol.15,pp.705-712)提出一种基于Landmark点的等距映射算法,它首先在数据中随机选取一部分landmark点,在将数据从高维映射到低维时只需要计算其他点与landmark点之间的测地距离,相对于Isomap中需要计算任意两点之间的测地距离来说,这种方法大大减少了计算量,但L-Isomap的降维结果与初始的Landmark点的选择具有较大关系,这导致L-Isomap的降维结果具有一定的随机性。
LTSA(文献3,Zhang ZY,Zha HY(2004)Principal manifolds and nonlineardimensionality reduction via tangent space alignment.SIAM J Sci Comput 26(1):313-338)通过将数据划分成一个个线性的局部并将每个局部中的数据投影到该局部中心点的切空间,然后在低维空间中将这些数据点在切空间的表示排列起来而得到所有数据的低维坐标。相对于Isomap来说,LTSA能够很好的保持原始数据的局部几何信息,通常它在对于非凸数据集上的表现比Isomap要好,但同时它也需要计算一个大规模矩阵的特征分解,同样存在高计算复杂度的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810824782.9/2.html,转载请声明来源钻瓜专利网。