[发明专利]基于贝叶斯非参数PCA的高维样本数据维度降低方法在审
| 申请号: | 201810470715.1 | 申请日: | 2018-05-17 |
| 公开(公告)号: | CN108596278A | 公开(公告)日: | 2018-09-28 |
| 发明(设计)人: | 吴骏;李振兴;曹萌;张雷;王崇骏 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210093 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本数据 维度降低 贝叶斯 非参数 高维 降维 模型训练 采样 维度 原始数据维度 预处理阶段 采样结果 高维数据 模型变量 收敛条件 输出阶段 数据降维 自动选择 区分度 数据集 输出 应用 | ||
本发明公开了一种基于贝叶斯非参数PCA的高维样本数据维度降低方法,包括如下步骤:1)数据集预处理阶段;2)降维维度设置阶段:设置合适的维度进行样本数据的降维工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到原始数据维度降低后的值,并输出该值。本发明将贝叶斯非参数方法与PCA方法结合,应用于高维样本数据的维度降低方面,该方法有着数据降维准确、降维后数据区分度高、以及能够自动选择合适的维度进行高维数据的降维等优点。
技术领域
本发明主要涉及一种基于贝叶斯非参数PCA的高维样本数据维度降低方法。主要针对高 维数据维度降低中的模型选择问题,给出一种快速的解决方案。
背景技术
在统计学、机器学习和信息论等学科中,维度降低(Dimension Reduction)是通过获得一组 “主变量”来减少所考虑的随机变量特征数量的过程,它主要分为特征选择和特征提取。特征 选择技术的目的是试图找到原始变量特征集合的子集,利用子集中的特征近似原始特征集合; 特征提取技术则是将高维空间中的数据转换成低维空间中,实现特征的提取过程。维度降低 对于解决维度灾难(Curse of Dimensionality)问题来说十分重要,即通过某种手段,将原始高维 数据转换成低维空间中的数据,并且在转换过程中,保持原始数据的重要信息不丢失,从而 解决高维数据容易造成数据稀疏、计算困难等问题。
作为特征提取技术中一种重要的方法,主成分分析法(PCA)在维度降低方面有着重要的作 用。PCA使用正交变换将一组可能相关的变量的观察值转换为一组线性不相关变量的值,这 种线性不相关的变量被称为“主成分”。在实践中,首先构造数据的协方差矩阵,同时计算该 矩阵上的特征向量和特征值;然后通过选取最大几个特征值所对应的特征向量作为“主成分”, 来重建原始数据。
然而,对于具有隐含标签信息的数据集来说,直接使用PCA方法,或许会导致数据维度 降低过程中,丢失数据的潜在类别信息,例如手写数字数据集。同时该方法也无法直接对确 定降维后的数据维度值,涉及到模型选择问题。
发明内容
本发明主要解决的技术问题是,实现对原始样本维度降低的同时,能够很好的解决模型 选择问题,并实现样本隐含标签信息挖掘的工作,使得在维度降低过程中,保留了原始数据 的潜在类别信息。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于贝叶斯非参数PCA的高维样本数据维度降低方法,包括如下步骤:
步骤1,数据集预处理:将原始高维样本数据按照统一格式处理,对统一处理好的高 维样本数据进行去噪声,以及正则化操作;
步骤2,降维维度设置:
步骤3,模型训练:使用吉布斯采样方法模型中的变量进行采样,方法如下:
步骤3a1)初始化采样算法平台,利用机器学习方法,构建从条件概率分布中采样的程序, 供BNPP模型使用;
步骤3a2)随机初始化BNPP模型中的变量W、变量Z,变量θ、变量α以及变量τ。这些变量之间的关系满足:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810470715.1/2.html,转载请声明来源钻瓜专利网。





