[发明专利]一种利用GPU加速密度峰聚类的方法有效
申请号: | 202010811897.1 | 申请日: | 2020-08-13 |
公开(公告)号: | CN112052879B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 苏雨萱;张岩峰;宛长义;于戈 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F18/23 | 分类号: | G06F18/23;G06F9/50;G06F18/2431;G06F18/2321 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 戴风友;梅洪玉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 gpu 加速 密度 峰聚类 方法 | ||
本发明属于大数据处理领域,涉及一种利用GPU加速密度峰聚类的方法。本发明通过设计新的索引结构来减少距离矩阵的计算量,并利用GPU来加速索引的构建和近邻搜索,提高密度峰聚类算法中每个点的密度值和斥群值计算效率。本发明通过在GPU上构建制高点树索引,并行地计算每个数据点的密度值和斥群值,在用户选择完聚类中心后可以并行分配每个点所属的聚类,有效地减少了距离矩阵的计算量且节省储存空间。相较于传统的聚类方法,使用GPU加速的密度峰聚类方法能够更高效地完成聚类任务。
技术领域
本发明属于大数据处理领域,涉及一种利用GPU加速密度峰聚类的方法。
背景技术
聚类分析是大数据处理中数据挖掘领域中的一类任务,主要研究的是如何将数据点划分成为多个簇,使得每个簇至少包含一个对象,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性。数据聚类中有许多高效且新颖的算法,其中密度峰算法理论简单复杂度低是一种十分有效的方法,不像传统的K-Means方法一样需要输入参数。但是密度峰算法有个缺点,在实现密度峰算法时需要距离矩阵的构建,这意味着它在处理大数据量时需要更高的计算性能和储存量。高性能计算是计算科学的一个分支,研究并行算法和相关软件,致力于研发高性能计算机满足科学计算、工程计算、海量数据处理等需求。在高性能计算领域,GPU(图像处理单元)相比于CPU具有更强大的计算能力,这吸引着用户设计新的并行算法采用GPU加速来提高执行效率。
发明内容
针对于上述问题,本发明提出来基于GPU加速密度峰聚类的算法。本发明旨在通过设计新的索引结构来减少距离矩阵的计算量,并利用GPU来加速索引的构建和近邻搜索,提高密度峰聚类算法中每个点的密度值和斥群值计算效率。
本发明的技术方案是:
一种利用GPU加速密度峰聚类的方法,步骤如下:
步骤1:在GPU上构建制高点树VP-Tree(vantage point tree)的索引结构。
制高点树是度量空间中一种基于距离的的索引结构。其基本思想是将二分查找用于只有距离信息的多维度量空间中,采用特征空间的目标点集的点与制高点之间的距离信息对特征空间进行划分,再利用三角不等式进行查询。制高点树的构建的复杂度低,且对高维数据仍然适用,查询近邻点的搜索复杂度低。树结构的左右自平衡的特点适合GPU的内存访问特性和线程执行方式。
步骤1.1:从上到下选出制高点树每层的制高点。先从所有数据点随机选出一个点,然后计算出距离该点最远的点最为制高点树的根节点。
步骤1.2:计算每个点与制高点的距离,按照距离的大小排序后等分成两部分,距离的中值M作为根节点对应的查询半径。
步骤1.3:分别选择左右子树的最后一个点(即距离上一层制高点最远的点)做为下一层的制高点。
步骤1.4:重复步骤1.2和1.3,直到当前分支内点的数量不大于32个,把这些点的序号储存到同一个数组内作为叶子节点。
步骤2:利用步骤1中的制高点树索引计算每个数据点的密度值。
步骤2.1:给GPU每个warp(每32个线程一组)分配一个点进行并行处理,构建栈结构来储存待访问节点,把制高点树的根节点入栈,给定的dc值作为查询半径。
步骤2.2:弹出栈顶元素,如果是分支节点,则计算待查询点与当前制高点的距离r,如果r-dc≤M,则把左子树根节点入栈;如果r+dc≥M,则把右子树根节点入栈。如果是叶子节点,则加入待筛选的点集。
步骤2.3:重复步骤2.2,直到栈空。
步骤2.4:计算待筛选点集中与当前点距离不超过dc的点数量作为该点的密度。
步骤3:利用步骤2中的每个数据点的密度值和制高点树索引计算每个数据点的斥群值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010811897.1/2.html,转载请声明来源钻瓜专利网。