[发明专利]一种自适应密度峰值的聚类集成系统及方法在审

申请号：	202310398943.3	申请日：	2023-04-13
公开（公告）号：	CN116578893A	公开（公告）日：	2023-08-11
发明（设计）人：	许贺洋;李娜;徐森;花小朋;皋军;刘博通;郭乃瑄;陈博炜;刘轩琦;高婷;孙雯;徐畅	申请（专利权）人：	盐城工学院;盐城工学院技术转移中心有限公司
主分类号：	G06F18/2321	分类号：	G06F18/2321;G06F18/214;G06F18/22;G06Q10/0631;G06Q50/26
代理公司：	北京冠和权律师事务所 11399	代理人：	朱健
地址：	224000 江苏省盐城市盐南高新***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自适应密度峰值集成系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自适应密度峰值的聚类集成系统，其特征在于，包括：

数据获取模块，用于获取数据集；

聚类成员生成模块，用于基于近邻传播算法对数据集进行处理，生成聚类成员；

聚类集成模块，用于基于自适应密度峰值聚类算法确定聚类中心和截断距离，再根据聚类中心和截断距离对数据集进行聚类划分，得到聚类结果。

2.如权利要求1所述的自适应密度峰值的聚类集成系统，其特征在于，所述聚类成员生成模块，执行如下操作：

将对数据集中的任意两个数据点之间欧式距离的负值作为两个数据点的的相似度，计算数据集中的所有数据点的相似度，相似度的具体表达式为：

S(i,k)＝-‖y_i-y_k‖₂

式中，y_i和y_k是数据集中的任意两个数据点，S(i,k)是两个数据点y_i和y_k的相似度；

并根据相似度构建成n×n维的相似度矩阵；

对相似度矩阵中的非主对角线上的矩阵元素按大小进行排序，取中间m个数值；

依次选取所述中间m个数值中的某一个数值的作为参考度，分别对相似度矩阵进行基聚类运算，得到m个聚类成员，构成一个m×n维的聚类成员矩阵,具体表示为：

P＝{P₁,P₂,…,P_m}

式中，P是聚类成员矩阵，P₁是以中间m个数值中的第1个数值的作为参考度，对数据集中的所有数据点进行基聚类运算所得到的聚类成员，P₂是以中间m个数值中的第2个数值的作为参考度，对数据集中的所有数据点进行基聚类运算所得到的聚类成员，P_m是以中间m个数值中的第m个数值的作为参考度，对数据集中的所有数据点进行基聚类运算所得到的聚类成员。

3.如权利要求1所述的自适应密度峰值的聚类集成系统，其特征在于，所述聚类集成模块执行如下操作：

定义局部密度和相对距离,其中，

局部密度根据数据的离散和连续分为截断核和高斯核两种计算方式，其中，

截断核适用于离散数据，具体表达式为：

式中，ρ_i是第第i个点的局部密度，d_ij代表第i个数据点和第j个数据点的欧氏距离，d_c是截断距离，函数χ(d_ij-d_c)定义如下：

而高斯核适用于连续数据，具体表达式为：

定义相对距离δ_i，具体表达式为：

式中，δ_i是相对距离，是局部密度比ρ_i大的点的集合，表示空集；

根据局部密度和相对距离得到基尼系数，基尼系数的具体表达式为：

式中，G(E)是基尼系数，E是数据集，γ_i代表第i个数据点的簇中心权值，γ_i＝ρ_i*δ_i,d_ij代表第i个数据点和第j个数据点的欧氏距离，δ_i是相对距离；

根据基尼系数取最小值，自适应确定截断距离；

以局部密度为横坐标，相对距离为纵坐标绘制二维决策图，基于聚类中心自动选择方法得到聚类中心点；