[发明专利]一种基于对称非负矩阵分解的改进谱聚类及并行化方法有效

专利信息
申请号: 202010410767.7 申请日: 2020-05-15
公开(公告)号: CN111767941B 公开(公告)日: 2022-11-18
发明(设计)人: 姜加凤;雷咏梅 申请(专利权)人: 上海大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 上海上大专利事务所(普通合伙) 31205 代理人: 何文欣
地址: 200444*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 对称 矩阵 分解 改进 谱聚类 并行 方法
【权利要求书】:

1.一种基于对称非负矩阵分解的改进谱聚类及并行化方法,其特征在于,其步骤如下:

1)将数据集上传到HDFS文件系统中,创建Spark上下文环境,从分布式存储HDFS上获取数据,将其转化为弹性分布式数据集RDD;根据用户程序中设定的RDD分区数目来启动一定数目的并发线程读取数据;

2)并行化构造相似度矩阵W,通过高斯核函数计算待处理数据集样本之间的相似度值,并采用稀疏向量集方式存储;

3)采用t近邻稀疏化相似度矩阵的方法,将所述相似度矩阵W变换为稀疏矩阵W1,所述t为近邻参数;并将上述稀疏相似度矩阵W1对称化为矩阵W′;

4)并行地计算度矩阵D、对称非负邻接矩阵

5)基于ADMM优化算法迭代求解得到对称非负矩阵分解降维后的基矩阵M;

6)行标准化矩阵M,每一行表示一个样本,对该n个样本使用基于最大最小距离法和快速距离计算的改进并行K-means算法进行聚类,得到聚类结果A1,A2,A3,…,Ak

2.根据权利要求1所述的基于对称非负矩阵分解的改进谱聚类及并行化方法,其特征在于,所述步骤2的具体步骤如下:

步骤2.1)在每个分区内,每个样本只和本分区中序号比自己大的样本使用map算子进行相似度计算,并行地计算每个分区内样本点间的距离;

步骤2.2)先使用mapPartitionsWithlndex算子对每个分区进行标记,再使用单向循环迭代法通过map算子并行地进行不同分区中样本间的相似度计算,总的迭代次数为m=(n-1)/2,在每轮迭代中,分别计算分区标号为i和j的分区中的样本相似度,其中j=(i+λ)%n,n是分区个数,λ为当前迭代次数,当λ>m,终止迭代。

3.根据权利要求1所述的基于对称非负矩阵分解的改进谱聚类及并行化方法,其特征在于,所述步骤3的具体步骤如下:

步骤3.1)对每个数据样本点xi,维护一个大小为t的最大堆Hi,每对样本点计算出的距离将被两次插入到不同的最大堆中;最终,使用filter算子过滤出每个样本点对应的堆中保留的与该样本距离最近的t个其他样本,即t个最近邻居并记为NearestData;

步骤3.2)为了之后计算的相似度矩阵是对称的,根据NearestData中的结果信息,计算出DistData;即通过flatmap算子对NearestData中每一条值进行细分,将原本行号、列号、距离值的元组一组信息,多加一条列号、行号、距离值的元组信息,变成两组信息;再通过groupBykey算子,以行号进行shuffle;shuffle后重新进行分区,保证同一个key的数据在一个分区当中;这里得到的结果中,key值代表样本向量行的索引,key中所对应的value则是距离key所对应的样本向量最近的t个样本向量的索引和它们之间的距离组成的元组;通过上述处理,即可得到对称的稀疏相似度矩阵;

步骤3.3)由于相似度的计算消耗大量资源,故采用persist算子将相似度矩阵RDD缓存起来,避免后续计算中因数据丢失而产生的重复计算。

4.根据权利要求1所述的基于对称非负矩阵分解的改进谱聚类及并行化方法,其特征在于,所述步骤4的具体步骤如下:

步骤4.1)读入稀疏对称矩阵W′,将矩阵W′以行向量的稀疏形式存储在各个节点上,使用reduceByKey算子将矩阵每行元素相加,每行元素的和即为度矩阵D对应行的对角元素,由于对角矩阵属于稀疏矩阵,为了方便存储,将其所有对角元素汇总到Driver节点构成一个数组变量,使用map算子将其取倒数并开平方,即可得到对角矩阵D-1/2

步骤4.2)将以数组形式存放的对角矩阵D-1/2的对角线元素分发到各个计算节点,使用map算子从数组中取得行号索引的对角线上元素的值,与存储在本地的矩阵W′行向量中的每个元素相乘得到中间结果记为W2;从存储对角矩阵D-1/2的数组中获取与W2中每行对应位置上的元素值进行相乘,得到对称非负邻接矩阵

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010410767.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top