[发明专利]基于变分自编码器和密度峰值的混合属性数据聚类方法在审
申请号: | 201810431968.8 | 申请日: | 2018-05-08 |
公开(公告)号: | CN108776806A | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 段宝彬;韩立新;勾智楠 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混合属性 聚类 编码器 数据聚类 分布数据 峰值算法 预处理 提取预处理 冗余特征 中心选择 传统的 非球形 归一化 潜在的 降维 改进 | ||
本发明公开了一种基于变分自编码器和密度峰值的混合属性数据聚类方法,首先对原始混合属性数据进行编码、归一化、降维等预处理,消除冗余特征;接下来用变分自编码器提取潜在的特征,最后利用改进的密度峰值算法进行聚类,有助于提高聚类的效果。本发明方法利用变分自编码器提取预处理后原始混合属性数据的特征,并利用改进的密度峰值算法进行聚类,克服了传统的混合属性数据聚类方法对离群点和初始簇中心选择的敏感性,使得聚类的结果更为稳定,本方法不仅适用于球形分布数据,对非球形分布数据的聚类也能取得理想的效果。
技术领域
本发明涉及人工智能与数据挖掘的技术领域,特别是一种基于变分自编码器和密度峰值的混合属性数据聚类方法。
背景技术
聚类分析技术作为一种重要的无监督数据挖掘方法,它根据数据属性将样本划分成若干不同的簇,使得同一个簇内的样本具有较高的相似度,不同簇的样本差异性较大。k-means、DBSCAN、谱聚类等传统的聚类分析算法主要适用于仅含数值型属性的数据,不能直接对含有分类型属性的数据进行有效聚类。针对既有数值型属性又含有分类型属性的混合属性数据的聚类问题,不少学者已经得到了一些有意义的研究成果,其中1997年Huang提出的k-prototype算法应用最为广泛,该算法是对数值型属性数据聚类的k-means算法和分类型属性数据聚类的k-modes算法的综合。虽然算法计算速度快,适合大规模混合属性数据的聚类,但是该算法对初始簇中心和离群点较敏感,并且主要适用于球形分布的数据集。2014年,Rodriguez和Laio提出的密度峰值聚类算法(Density Peak Clustering,DPC),将具有局部密度大、且与局部密度更大的样本距离远的样本作为簇中心,然后按最近邻原则确定非簇中心样本所属的簇标号。该算法新颖直观,可以对任意形状分布的样本聚类,但是该算法需要计算任意两个样本之间的距离,计算复杂度高。2013年,Kingma和Welling将变分推理方法和神经网络结合提出了变分自编码器,Dilokthanakul和Mediano将高斯混合先验分布的变分自编码器应用于聚类分析。2017年,Bai等研究了对原始数据先利用k-means进行快速预聚类,通过分析预聚类的结果,提出两种方法减少密度峰值聚类算法中一些不必要的距离计算,大大提高了算法的运行效率。但上述方法只适合数值型属性数据的聚类,不能直接应用于既有数值型属性又包含分类型属性的混合属性数据的聚类。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于变分自编码器和密度峰值的混合属性数据聚类方法,本发明克服了传统的混合属性数据聚类方法对离群点和初始簇中心选择的敏感性,使得聚类的结果更为稳定,本方法不仅适用于球形分布数据,对非球形分布数据的聚类也能取得理想的效果。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,包括以下步骤:
步骤1、读取原始混合属性数据集;
步骤2、采用one-hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码,对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化,构造标准化数据矩阵;
步骤3、采用t-SNE算法对标准化数据矩阵进行降维处理,得到低维数据矩阵;
步骤4、构建并训练变分自编码器,得到每个低维样本的潜在特征,构造联合特征矩阵;
步骤5、基于联合特征矩阵,利用改进的密度峰值聚类算法进行聚类,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果;
所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810431968.8/2.html,转载请声明来源钻瓜专利网。