[发明专利]一种基于对称非负矩阵分解的改进谱聚类及并行化方法有效
| 申请号: | 202010410767.7 | 申请日: | 2020-05-15 |
| 公开(公告)号: | CN111767941B | 公开(公告)日: | 2022-11-18 |
| 发明(设计)人: | 姜加凤;雷咏梅 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对称 矩阵 分解 改进 谱聚类 并行 方法 | ||
本发明公开了一种基于对称非负矩阵分解的改进谱聚类及并行化方法。通过单向循环多轮迭代的方法进行不同分区中样本点间相似度的并行计算,并采用t近邻的方法稀疏化相似度矩阵。通过交替方向乘子法来迭代求出与正交约束松弛的谱聚类目标函数等价的对称非负矩阵分解的最优解,避免使用拉普拉斯矩阵进行SVD特征分解。利用改进的K‑means算法对通过对称非负矩阵分解得到的特征向量子集进行聚类。本发明对改进谱聚类算法的计算步骤基于Spark大数据计算框架进行了并行设计及实现,使得算法不仅在聚类效果上优于传统算法,进一步解决了传统谱聚类算法在大规模数据集中计算耗时过长甚至无法完成计算的问题。
技术领域
本发明提出了一种改进谱聚类及并行化方法,涉及机器学习、大数据聚类和并行计算领域。
背景技术
谱聚类算法基于谱图理论,将聚类问题转化为图的最优划分问题,由于其能够实现对非凸等任意形状的样本空间的聚类、可有效避免局部最优解、并且可以应用于高维数据的聚类等优点,成为机器学习领域聚类算法中的研究热点。然而,随着大规模数据的普及,传统谱聚类算法由于计算相似度矩阵时空间存储代价大、特征分解的时间复杂度高,存在计算耗时过长甚至无法完成计算的问题,这在实际的大数据应用中是致命的,限制了其在很多领域上的应用。
近年来对于谱聚类算法的研究主要集中在两方面。一方面,通过在算法的实现层面上进行优化,提升算法的执行效率。针对存储相似度矩阵空间复杂度过高的问题,一类解决方法是使相似度矩阵中一些无关紧要的元素归零,将矩阵稀疏化。另一类方法是按照行或列对相似性矩阵进行采样,得到原始矩阵的低秩近似。
针对拉普拉斯矩阵特征分解时间复杂度高的问题,有研究者提出基于Spark平台采用Lanczos分解方法将拉普拉斯矩阵分解成实对称对角矩阵,再进行QR分解来提高算法的运行效率。对于最后的聚类方式,针对普遍使用的K-means聚类方法由于初始聚类中心的随机选取,存在受离群点的影响大并且聚类结果差异大的问题,有研究者使用K-means++预采样过程来确定初始聚类中心,但由于其聚类中心点选择过程中的内在有序性,在扩展方面存在着性能方面的问题。
另一方面,随着MPI、MapReduce并行计算模型的应用以及Hadoop、Spark等分布式并行框架的兴起,实现算法的并行化是提高大数据分析算法运行效率的不错的选择。Song等人利用MPI并行环境设计出并行谱聚类算法并使用大量的数据进行聚类实验,解决了传统的谱聚类算法中存在的计算性能瓶颈的问题,但存在通信开销较大、对控制的要求比较高的缺点。Fei Gao等人提出了一种分布式近似谱聚类算法。这种算法同样也是基于MapReduce编程模型进行设计,并在Hadoop平台之上实现。与MPI和Hadoop系统相比,当前应用广泛的Spark并行计算框架具有良好的优越性。MPI编程模型比较低层次,需要用户理解处理数据流机制和底层架构。Spark提供抽象化编程模型,用户只需要专注于算法的逻辑实现,并不用关心节点之间的通信、失效和恢复等问题。Hadoop只基于map和reduce这两种抽象实现为用户提供高层次的MapReduce编程模型,而map和reduce操作会产生很多中间数据,频繁的磁盘I/O读写限制了任务的高效运行。Spark编程模型将所有数据都抽象成具有丰富的并行操作算子的RDD,基于内存进行RDD的迭代计算,减少了中间结果在磁盘上的读写操作,优化了迭代算法的工作负载。
发明内容
为解决传统谱聚类算法由于相似度矩阵计算和拉普拉斯矩阵特征分解空间复杂度、时间复杂度高而无法应用于大规模数据集的问题,本发明提出了一种基于对称非负矩阵分解的改进谱聚类及并行化方法。对改进谱聚类算法的计算步骤基于Spark大数据计算框架进行了并行设计及实现,使得算法不仅在聚类效果上优于传统算法,进一步解决了传统谱聚类算法在大规模数据集中计算耗时过长甚至无法完成计算的问题。
本发明采用如下技术方案:
基于对称非负矩阵分解的改进谱聚类及并行化方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010410767.7/2.html,转载请声明来源钻瓜专利网。





