[发明专利]一种可调权重的高维数据降维方法及系统在审
| 申请号: | 202111557901.7 | 申请日: | 2021-12-20 |
| 公开(公告)号: | CN114492566A | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 杨旭东;张树巍;刘焰明;张庆明 | 申请(专利权)人: | 西南科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 孙元伟 |
| 地址: | 621000 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 可调 权重 数据 方法 系统 | ||
本发明公开了涉及数据降维技术领域,公开了一种可调权重的高维数据降维方法及系统,该降维方法,包括以下步骤:Step1,提取数据;Step2,获取属性权重矩阵;Step3,计算加权欧式点对距离;Step4,计算高维空间联合概率;Step5,获取低维空间点分布。本发明解决了现有技术存在的降维准确度较低、误差较大等问题。
技术领域
本发明涉及数据降维技术领域,具体是一种可调权重的高维数据降维方法及系统。
背景技术
目前人类社会正进入大数据时代,随着计算机信息技术的飞速发展,社会中各行各业逐渐数据化,越来越多的数据被产生、被存储。如何将这些复杂高维的数据转变为我们能够观测以及方便进一步使用的低维数据是一个急需解决的重要问题。现在大部分的降维方法分为线性与非线性,主要代表为PCA,MDS,t-SNE等,其中t-SNE通过条件概率来衡量高维空间和低维空间点对之间的相似度,并且将KL散度作为目标函数使得低维空间能保持较好嵌入效果,而正是由于t-SNE算法在计算高维空间点对的相似度时,采用了高斯核函数,因此不可避免的会计算点对之间的欧式距离。由于数据本身的特点,属性之间存在差异性,在计算欧式距离时,并不是每个数据属性的距离同等重要,所以采用欧式距离的高斯核函数可能并不能完全反映真实高维空间的概率结构,导致在此基础上的降维效果不够理想,很难根据数据特点来进行更加准确,灵活的降维,导致降维效果随着数据复杂性的增加而变弱。
现有一些对高维复杂数据降维聚类方法。专利《一种易混淆数字手写体的再识别方法》(中国专利公布号:CN 109034021 A,公开时间2018.12.18)将原始t-SNE高维空间点对距离计算进行分组加权,减小了降维误差,提高了再识别准确率。但是,此发明并没有考虑到原始数据中各个属性之前的差异性,只是对已经计算出的欧式距离进行分组加权,在分析多属性数据时仍然存在一定的局限性。专利《一种基于t-SNE的成绩聚类分析方法》(中国专利公布号:CN 111625576 A,公开时间2020.09.04)直接使用了t-SNE算法对高维学生成绩数据进行降维处理,虽然可视化实验结果表明对学生成绩数据降维有效果,但是针对于属性特征较强的学生成绩数据,没有考虑属性之间的关联性,而且缺乏对实验结果的量化对比指标。
发明内容
为克服现有技术的不足,本发明提供了一种可调权重的高维数据降维方法及系统,解决现有技术存在的降维准确度较低、误差较大等问题。
本发明解决上述问题所采用的技术方案是:
一种可调权重的高维数据降维方法,包括以下步骤:
Step1,提取数据:提取n个m维的高维数据,形成n*m的数据矩阵X;
其中,xik为高维数据的第i行第k列数据,n>2且为正整数,m>3且为正整数,i为正整数且1≤i≤n,k为正整数且1≤k≤m;
Step2,获取属性权重矩阵:对数据矩阵X进行属性权重计算,得出属性权重矩阵weight;
weight=[wc1 … wci … wcm];
其中,wci为数据矩阵X中第i列数据的属性权重值;
Step3,计算加权欧式点对距离:将weight代入高维空间点对欧式距离计算公式中,得出每个点对之间的属性加权欧式点对距离矩阵D;
其中,dij为数据矩阵X中第i行数据与第j行数据在高维空间中的加权欧式距离,高维空间指维度>3的空间;xik为数据矩阵X中第i行第k列的数据,xjk为数据矩阵X中第j行第k列的数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111557901.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





