[发明专利]一种基于对称非负矩阵分解的改进谱聚类及并行化方法有效
| 申请号: | 202010410767.7 | 申请日: | 2020-05-15 |
| 公开(公告)号: | CN111767941B | 公开(公告)日: | 2022-11-18 |
| 发明(设计)人: | 姜加凤;雷咏梅 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对称 矩阵 分解 改进 谱聚类 并行 方法 | ||
1.一种基于对称非负矩阵分解的改进谱聚类及并行化方法,其特征在于,其步骤如下:
1)将数据集上传到HDFS文件系统中,创建Spark上下文环境,从分布式存储HDFS上获取数据,将其转化为弹性分布式数据集RDD;根据用户程序中设定的RDD分区数目来启动一定数目的并发线程读取数据;
2)并行化构造相似度矩阵W,通过高斯核函数计算待处理数据集样本之间的相似度值,并采用稀疏向量集方式存储;
3)采用t近邻稀疏化相似度矩阵的方法,将所述相似度矩阵W变换为稀疏矩阵W1,所述t为近邻参数;并将上述稀疏相似度矩阵W1对称化为矩阵W′;
4)并行地计算度矩阵D、对称非负邻接矩阵
5)基于ADMM优化算法迭代求解得到对称非负矩阵分解降维后的基矩阵M;
6)行标准化矩阵M,每一行表示一个样本,对该n个样本使用基于最大最小距离法和快速距离计算的改进并行K-means算法进行聚类,得到聚类结果A1,A2,A3,…,Ak。
2.根据权利要求1所述的基于对称非负矩阵分解的改进谱聚类及并行化方法,其特征在于,所述步骤2的具体步骤如下:
步骤2.1)在每个分区内,每个样本只和本分区中序号比自己大的样本使用map算子进行相似度计算,并行地计算每个分区内样本点间的距离;
步骤2.2)先使用mapPartitionsWithlndex算子对每个分区进行标记,再使用单向循环迭代法通过map算子并行地进行不同分区中样本间的相似度计算,总的迭代次数为m=(n-1)/2,在每轮迭代中,分别计算分区标号为i和j的分区中的样本相似度,其中j=(i+λ)%n,n是分区个数,λ为当前迭代次数,当λ>m,终止迭代。
3.根据权利要求1所述的基于对称非负矩阵分解的改进谱聚类及并行化方法,其特征在于,所述步骤3的具体步骤如下:
步骤3.1)对每个数据样本点xi,维护一个大小为t的最大堆Hi,每对样本点计算出的距离将被两次插入到不同的最大堆中;最终,使用filter算子过滤出每个样本点对应的堆中保留的与该样本距离最近的t个其他样本,即t个最近邻居并记为NearestData;
步骤3.2)为了之后计算的相似度矩阵是对称的,根据NearestData中的结果信息,计算出DistData;即通过flatmap算子对NearestData中每一条值进行细分,将原本行号、列号、距离值的元组一组信息,多加一条列号、行号、距离值的元组信息,变成两组信息;再通过groupBykey算子,以行号进行shuffle;shuffle后重新进行分区,保证同一个key的数据在一个分区当中;这里得到的结果中,key值代表样本向量行的索引,key中所对应的value则是距离key所对应的样本向量最近的t个样本向量的索引和它们之间的距离组成的元组;通过上述处理,即可得到对称的稀疏相似度矩阵;
步骤3.3)由于相似度的计算消耗大量资源,故采用persist算子将相似度矩阵RDD缓存起来,避免后续计算中因数据丢失而产生的重复计算。
4.根据权利要求1所述的基于对称非负矩阵分解的改进谱聚类及并行化方法,其特征在于,所述步骤4的具体步骤如下:
步骤4.1)读入稀疏对称矩阵W′,将矩阵W′以行向量的稀疏形式存储在各个节点上,使用reduceByKey算子将矩阵每行元素相加,每行元素的和即为度矩阵D对应行的对角元素,由于对角矩阵属于稀疏矩阵,为了方便存储,将其所有对角元素汇总到Driver节点构成一个数组变量,使用map算子将其取倒数并开平方,即可得到对角矩阵D-1/2;
步骤4.2)将以数组形式存放的对角矩阵D-1/2的对角线元素分发到各个计算节点,使用map算子从数组中取得行号索引的对角线上元素的值,与存储在本地的矩阵W′行向量中的每个元素相乘得到中间结果记为W2;从存储对角矩阵D-1/2的数组中获取与W2中每行对应位置上的元素值进行相乘,得到对称非负邻接矩阵
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010410767.7/1.html,转载请声明来源钻瓜专利网。





