[发明专利]一种自适应密度峰值的聚类集成系统及方法在审
| 申请号: | 202310398943.3 | 申请日: | 2023-04-13 |
| 公开(公告)号: | CN116578893A | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 许贺洋;李娜;徐森;花小朋;皋军;刘博通;郭乃瑄;陈博炜;刘轩琦;高婷;孙雯;徐畅 | 申请(专利权)人: | 盐城工学院;盐城工学院技术转移中心有限公司 |
| 主分类号: | G06F18/2321 | 分类号: | G06F18/2321;G06F18/214;G06F18/22;G06Q10/0631;G06Q50/26 |
| 代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健 |
| 地址: | 224000 江苏省盐城市盐南高新*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自适应 密度 峰值 集成 系统 方法 | ||
1.一种自适应密度峰值的聚类集成系统,其特征在于,包括:
数据获取模块,用于获取数据集;
聚类成员生成模块,用于基于近邻传播算法对数据集进行处理,生成聚类成员;
聚类集成模块,用于基于自适应密度峰值聚类算法确定聚类中心和截断距离,再根据聚类中心和截断距离对数据集进行聚类划分,得到聚类结果。
2.如权利要求1所述的自适应密度峰值的聚类集成系统,其特征在于,所述聚类成员生成模块,执行如下操作:
将对数据集中的任意两个数据点之间欧式距离的负值作为两个数据点的的相似度,计算数据集中的所有数据点的相似度,相似度的具体表达式为:
S(i,k)=-‖yi-yk‖2
式中,yi和yk是数据集中的任意两个数据点,S(i,k)是两个数据点yi和yk的相似度;
并根据相似度构建成n×n维的相似度矩阵;
对相似度矩阵中的非主对角线上的矩阵元素按大小进行排序,取中间m个数值;
依次选取所述中间m个数值中的某一个数值的作为参考度,分别对相似度矩阵进行基聚类运算,得到m个聚类成员,构成一个m×n维的聚类成员矩阵,具体表示为:
P={P1,P2,…,Pm}
式中,P是聚类成员矩阵,P1是以中间m个数值中的第1个数值的作为参考度,对数据集中的所有数据点进行基聚类运算所得到的聚类成员,P2是以中间m个数值中的第2个数值的作为参考度,对数据集中的所有数据点进行基聚类运算所得到的聚类成员,Pm是以中间m个数值中的第m个数值的作为参考度,对数据集中的所有数据点进行基聚类运算所得到的聚类成员。
3.如权利要求1所述的自适应密度峰值的聚类集成系统,其特征在于,所述聚类集成模块执行如下操作:
定义局部密度和相对距离,其中,
局部密度根据数据的离散和连续分为截断核和高斯核两种计算方式,其中,
截断核适用于离散数据,具体表达式为:
式中,ρi是第第i个点的局部密度,dij代表第i个数据点和第j个数据点的欧氏距离,dc是截断距离,函数χ(dij-dc)定义如下:
而高斯核适用于连续数据,具体表达式为:
定义相对距离δi,具体表达式为:
式中,δi是相对距离,是局部密度比ρi大的点的集合,表示空集;
根据局部密度和相对距离得到基尼系数,基尼系数的具体表达式为:
式中,G(E)是基尼系数,E是数据集,γi代表第i个数据点的簇中心权值,γi=ρi*δi,dij代表第i个数据点和第j个数据点的欧氏距离,δi是相对距离;
根据基尼系数取最小值,自适应确定截断距离;
以局部密度为横坐标,相对距离为纵坐标绘制二维决策图,基于聚类中心自动选择方法得到聚类中心点;
根据截断距离和聚类中心点对数据集进行聚类划分,得到聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院;盐城工学院技术转移中心有限公司,未经盐城工学院;盐城工学院技术转移中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310398943.3/1.html,转载请声明来源钻瓜专利网。





