[发明专利]基于密度峰值的数据聚类方法、装置、介质在审

专利信息
申请号: 202210505924.1 申请日: 2022-05-10
公开(公告)号: CN115205566A 公开(公告)日: 2022-10-18
发明(设计)人: 安俊秀;马振明;靳宇倡 申请(专利权)人: 成都信息工程大学
主分类号: G06V10/762 分类号: G06V10/762;G06V10/764;G06V10/74;G06K9/62
代理公司: 北京元本知识产权代理事务所(普通合伙) 11308 代理人: 曹广生
地址: 610225 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 密度 峰值 数据 方法 装置 介质
【说明书】:

发明公开了一种基于密度峰值的数据聚类方法、装置、介质,利用直接下级描述各个数据点的相对密度,其中数据点是数据集中的图片或者词语特征,设计结合相对密度和绝对密度的混合密度值识别聚类中心,并通过相似性可达定义有效下级,进行非中心点的主要分配,并结合不同簇的k层上级分布,确定剩余点的标签,以此可以有效将数据集中相同类别的数据点聚集在一个类别下,高效准确地完成了对数据集的分类。

技术领域

本发明属于聚类分析技术领域,具体的说,涉及一种基于密度峰值的数据 聚类方法、装置、介质。

背景技术

聚类分析是一种无监督学习的机器学习方法,它按照数据间的相似性将数 据分配到不同的集合中,使得同一集合内的样本点相似性较高,不同集合间的 样本点的相似度较低,这些集合称为簇。现有的聚类方法根据对相似性的不同 理解可以划分为不同的类别,典型的有基于距离的方法和基于密度的方法。 Rodriguez和Laio在2014年提出通过快速搜索和查找密度峰值的聚类方法 (Clustering by Fast Search and Find of DensityPeaks,DPC),是一种流行的基于密 度的聚类方法,DPC是基于两个假设提出的,第一个假设为聚类中心是局部密 度峰值,第二个假设为非聚类中心点应与其高密度最近邻在同一个集群中,由于 DPC简单高效,已广泛应用于图像处理、信息安全、大数据等领域。例如,对 于一个图像集,将图像集中的相似图片聚类到一个类别下。但DPC存在以下缺 点:首先,初始聚类中心的选择是手动的,这在某些情况下是极其困难的,甚 至是不可能的。其次仅考虑绝对密度而忽略了相对密度,导致方法不能很好的 处理密度不均匀的集群。最后,DPC的剩余点分配策略将导致“连锁反应”,即 当一个高密度点被分配到错误的簇中,它的密度较低的邻居很可能别分配到同 一个错误的簇中。

发明内容

本发明的目的在于克服背景技术所提出的技术问题,提出了一种基于密度 峰值的数据聚类方法、装置、介质,从假设与实现间的不一致出发和假设的不 适用性出发。利用直接下级描述各个数据点的相对密度,设计结合相对密度和 绝对密度的混合密度值识别聚类中心,并通过相似性可达定义有效下级,进行 非中心点的主要分配,并结合不同簇的k层上级分布,确定剩余点的标签,以 此可以有效将数据集中相同类别的数据点聚集在一个类别下,高效准确地完成 了对数据集的分类。

本发明的具体技术方案如下:

根据本发明的第一技术方案,提供了一种结合混合密度和局部结构的基于 密度峰值的数据聚类方法,所述方法包括:

获取数据集,所述数据集是文本集或图像集,当所述数据集是文本集时, 提取所述文本集中的词语特征,将词语特征作为数据点,当所述数据集是图像 集时,将所述图像集中的图片作为数据点,计算每个数据点的绝对密度;通过 每个数据点的绝对密度排序得到数据点的高密度最近邻,利用数据点的直接下 级数目作为数据点的相对密度值;根据相对密度结合绝对密度表达混合密度以 确定混合密度聚类中心;通过如下公式(9)将混合密度聚类中心利用有效下级 关系逐步分配:

其中,L(xi)表示数据点xi的标签,Ll(xj)表示数据点xj的直接下级集合, DR(xj)表示数据点xj的相似性可达点的集合。

根据本发明的第二技术方案,提供了一种结合混合密度和局部结构的基于 密度峰值的数据聚类装置。所述装置包括处理器,所述处理器被配置为:获取 数据集,所述数据集是文本集或图像集,当所述数据集是文本集时,提取所述 文本集中的词语特征,将词语特征作为数据点,当所述数据集是图像集时,将 所述图像集中的图片作为数据点,计算每个数据点的绝对密度;通过每个数据 点的绝对密度排序得到数据点的高密度最近邻,利用数据点的直接下级数目作 为数据点的相对密度值;根据相对密度结合绝对密度表达混合密度以确定混合 密度聚类中心;通过如下公式(9)将混合密度聚类中心利用有效下级关系逐步 分配:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210505924.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top