[发明专利]基于密度峰值的数据聚类方法、装置、介质在审
申请号: | 202210505924.1 | 申请日: | 2022-05-10 |
公开(公告)号: | CN115205566A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 安俊秀;马振明;靳宇倡 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06V10/764;G06V10/74;G06K9/62 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 曹广生 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 密度 峰值 数据 方法 装置 介质 | ||
本发明公开了一种基于密度峰值的数据聚类方法、装置、介质,利用直接下级描述各个数据点的相对密度,其中数据点是数据集中的图片或者词语特征,设计结合相对密度和绝对密度的混合密度值识别聚类中心,并通过相似性可达定义有效下级,进行非中心点的主要分配,并结合不同簇的k层上级分布,确定剩余点的标签,以此可以有效将数据集中相同类别的数据点聚集在一个类别下,高效准确地完成了对数据集的分类。
技术领域
本发明属于聚类分析技术领域,具体的说,涉及一种基于密度峰值的数据 聚类方法、装置、介质。
背景技术
聚类分析是一种无监督学习的机器学习方法,它按照数据间的相似性将数 据分配到不同的集合中,使得同一集合内的样本点相似性较高,不同集合间的 样本点的相似度较低,这些集合称为簇。现有的聚类方法根据对相似性的不同 理解可以划分为不同的类别,典型的有基于距离的方法和基于密度的方法。 Rodriguez和Laio在2014年提出通过快速搜索和查找密度峰值的聚类方法 (Clustering by Fast Search and Find of DensityPeaks,DPC),是一种流行的基于密 度的聚类方法,DPC是基于两个假设提出的,第一个假设为聚类中心是局部密 度峰值,第二个假设为非聚类中心点应与其高密度最近邻在同一个集群中,由于 DPC简单高效,已广泛应用于图像处理、信息安全、大数据等领域。例如,对 于一个图像集,将图像集中的相似图片聚类到一个类别下。但DPC存在以下缺 点:首先,初始聚类中心的选择是手动的,这在某些情况下是极其困难的,甚 至是不可能的。其次仅考虑绝对密度而忽略了相对密度,导致方法不能很好的 处理密度不均匀的集群。最后,DPC的剩余点分配策略将导致“连锁反应”,即 当一个高密度点被分配到错误的簇中,它的密度较低的邻居很可能别分配到同 一个错误的簇中。
发明内容
本发明的目的在于克服背景技术所提出的技术问题,提出了一种基于密度 峰值的数据聚类方法、装置、介质,从假设与实现间的不一致出发和假设的不 适用性出发。利用直接下级描述各个数据点的相对密度,设计结合相对密度和 绝对密度的混合密度值识别聚类中心,并通过相似性可达定义有效下级,进行 非中心点的主要分配,并结合不同簇的k层上级分布,确定剩余点的标签,以 此可以有效将数据集中相同类别的数据点聚集在一个类别下,高效准确地完成 了对数据集的分类。
本发明的具体技术方案如下:
根据本发明的第一技术方案,提供了一种结合混合密度和局部结构的基于 密度峰值的数据聚类方法,所述方法包括:
获取数据集,所述数据集是文本集或图像集,当所述数据集是文本集时, 提取所述文本集中的词语特征,将词语特征作为数据点,当所述数据集是图像 集时,将所述图像集中的图片作为数据点,计算每个数据点的绝对密度;通过 每个数据点的绝对密度排序得到数据点的高密度最近邻,利用数据点的直接下 级数目作为数据点的相对密度值;根据相对密度结合绝对密度表达混合密度以 确定混合密度聚类中心;通过如下公式(9)将混合密度聚类中心利用有效下级 关系逐步分配:
其中,L(xi)表示数据点xi的标签,Ll(xj)表示数据点xj的直接下级集合, DR(xj)表示数据点xj的相似性可达点的集合。
根据本发明的第二技术方案,提供了一种结合混合密度和局部结构的基于 密度峰值的数据聚类装置。所述装置包括处理器,所述处理器被配置为:获取 数据集,所述数据集是文本集或图像集,当所述数据集是文本集时,提取所述 文本集中的词语特征,将词语特征作为数据点,当所述数据集是图像集时,将 所述图像集中的图片作为数据点,计算每个数据点的绝对密度;通过每个数据 点的绝对密度排序得到数据点的高密度最近邻,利用数据点的直接下级数目作 为数据点的相对密度值;根据相对密度结合绝对密度表达混合密度以确定混合 密度聚类中心;通过如下公式(9)将混合密度聚类中心利用有效下级关系逐步 分配:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210505924.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置