[发明专利]基于KD树和混沌蜉蝣优化算法的并行谱聚类方法在审

申请号：	202110503711.0	申请日：	2021-05-10
公开（公告）号：	CN113128618A	公开（公告）日：	2021-07-16
发明（设计）人：	毛伊敏;刘祥敏	申请（专利权）人：	江西理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/00;G06N7/08
代理公司：	重庆天成卓越专利代理事务所(普通合伙) 50240	代理人：	王宏松
地址：	341000 江***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 kd 混沌蜉蝣优化算法并行谱聚类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法，其特征在于，包括以下步骤：

S1，采用基于采样的KD-tree数据分区策略DPS划分数据，得到Map上的数据分区；

S2，在构建稀疏相似矩阵过程中，采用优化的分区分配策略OPA和两个基于三角不等式的KD树剪枝策略以进行跨分区的t近邻搜索；

S3，采用正规化定理，通过元素对应相乘的方式代替矩阵相乘以优化Laplacian矩阵正规化过程；

S4，采用混沌蜉蝣优化算法CMO得到最佳位置作为初始簇中心，然后，对特征空间进行k-means并行聚类；

S5，得到最终的聚类结果，并输出。

2.根据权利要求1所述的一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法，其特征在于，所述KD-tree数据分区策略DPS包括以下步骤：

S1-1，采样：对数据集D进行随机采样，得到采样数据集S；

S1-2，支撑点选择：首先从采样数据集S中随机选出第一个点；接着依次选出后续的支撑点，每次选择到近期被选出的几个点距离最大的点，得到候选集，并从候选集中组合出所有的支撑点集合；最后构造评价集，将评价集中的数据两两组合构成数据对，选出能排除最多评价集数据对的支撑点组合，即为最优的支撑点集合PS＝{PS₁,PS₂,...,PS_q|q＜＜n}；其中PS₁表示第1个支撑点，PS₂表示第2个支撑点，PS_q表示第q个支撑点；＜＜表示远小于，n表示原始数据集D的数据个数，q表示支撑点的总个数；

S1-3，映射：用选定的支撑点将数据映射到q维向量空间；对任一数据点v_i，将原始度量空间中的数据映射到二维向量空间中的数据点上；

S1-4，空间划分：采用KD树的划分方法将整个空间分割成若干个不相干的子空间，使每个子空间都包含同等大小的采样数据；首先选出方差最大的维度，根据采样数据集S在该维度上的值进行升序排序，选出中位数作为根节点，小于根节点的数据分配给左子树，大于根节点的数据分配给右子树；令m是需要划分的分区数，此时S被分成了两个不相交的部分，其大小比例为之后重复此过程，直到将S划分成大小相等的m个不相交的部分P_i(1≤i≤m)；其中，为向上取整符号，向下取整符号；

S1-5，数据划分：在得到一组不相交的子空间Bound(P_i)后，D中的每个对象都可以根据Bound(P_i)分配到相应的分区P_i中；划分完成后，输出两个表，分区信息表PI和数据信息表DI；分区信息表记录每个分区P_i的信息，包括P_i的分区IDp_id和P_i的最小边界框MinBound(P_i)；数据信息表记录每个点v_i的信息，包括v_i的IDv_id、对应的分区IDp_id、v_i的属性A(v_i)和映射向量φ(v_i)。