[发明专利]一种基于熵稳定约束的自动数据降维方法在审
申请号: | 202110257323.9 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112966753A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 李海峰;熊文静;马琳;李洪伟;丁施航;朱泓嘉;姜文浩 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06T9/00 |
代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 李鹏 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稳定 约束 自动 数据 方法 | ||
本发明公开了一种基于熵稳定约束的自动数据降维方法,包括以下步骤:步骤1,监测训练过程中网络输入层、隐含层和输出层的熵分布特征;步骤2,依据网络学习目的灵活地组合待分析熵分布特征匹配差异;步骤3,将匹配差异作为惩罚项加入网络整体损失函数中或是特异网络层的梯度项,而后经过多轮迭代后完成数据的降维,以用于后续分析。本发明的优点是:通过将不同神经网络层之间的熵匹配差异作为惩罚项,加入网络的整体损失函数中或是特异网络层的梯度项,达到对网络迭代过程中高维数据内在结构的保持的目的,且提取到的低维数据重建误差更小,还能准确的体现高维数据间的分布特征,保证了在不同网络初始化的条件下,网络编码层的输出趋向一致。
技术领域
本发明涉及高维空间数据降维技术领域,特别涉及一种基于熵稳定约束的自动数据降维方法。
背景技术
近年来,大数据时代一词被广泛提及,它是指在当今信息科技蓬勃发展的背景下,人们步入了可以获取海量数据信息的新时代,对这些海量数据的挖掘与合理应用,则是当前亟待解决的科学问题。但是这些数据具有高维度、非线性等复杂特性,如果不经过适当的降维方法用以提取有效特征,直接对其分析是十分困难的。
降维是指将高维空间内数据通过一种线性或非线性映射方法,投影至低维空间,获取最能够表征原始数据的特征变量。无监督降维是指直接从高维数据中提取特征,而不需要使用结果或者标签,主要学习的是特征之间的关系。
与本发明相关的现有技术一
主成分分析是一种无监督降维的统计方法,通过线性变换将原始数据投影到若干正交的高方差方向,这些投影数据称为主成分。应用于降维的主成分分析,是只保留数据集当中对方差贡献最大的特征,也即保留低维主成分,忽略高维主成分。图1即为一个呈现高斯分布的点云数据集的主成分分析结果示意图,黑色的两个向量即为该点云的两个主成分。
具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。计算步骤如下:步骤一:计算高维数据的相关矩阵;步骤二:计算相关矩阵的特征向量和特征值;步骤三:选取特征值较高的若干个特征向量作为主方向;步骤四:将原始数据集投影到选中的特征向量方向,即得相应维度的低维数据表示。通过控制选中的特征向量的数量,来达到获取不同维度的低维表示的目的。
现有技术一的缺点
1.对原始数据分布有要求:需要原始数据符合高斯分布,否则计算出的主成分非最优解,无法保证低维数据保留了高维数据的主要特征。
2.无法处理非线性数据:这是因为正交变换是一种线性变化,所以主成分分析对非线性数据表现很差。即若高维数据之间存在不可忽视的信息重叠,主成分分析不能有效剔除信息重叠。
与本发明相关的现有技术二
自动编码器由多层神经网络构成,其中输入层和输出层表征相同的含义并且具有相同的神经元数量,应用于降维的自动编码器则要求隐含层的神经元数量需小于输入输出层的神经元数量。经过训练后,能将网络的输入复制到网络的输出,也即构建了一个恒等映射函数。自动编码器可以按照功能划分为:编码器模块和解码器模块,正中间的隐含层输出,即为高维数据在低维空间的编码表示,具体结构如图2所示。
假设自动编码器网络输入为:X={x1,,..xi,..xN},则该网络的学习目标即为使网络输出:Y={y1,..yi,..yN},满足yi=f(xi)且yi=xi,此时网络“正中”的编码层即为高维数据的潜在表征。通过调整编码层的神经元数量,即可获得高维数据在不同维度的低维表示。
现有技术二的缺点
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257323.9/2.html,转载请声明来源钻瓜专利网。