[发明专利]一种基于分形技术的分布式聚类方法在审
| 申请号: | 201611257250.9 | 申请日: | 2016-12-30 |
| 公开(公告)号: | CN106777298A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 张岩龙;邓军;幸勇 | 申请(专利权)人: | 成都数联易康科技有限公司;西南交通大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 成都中亚专利代理有限公司51126 | 代理人: | 王岗 |
| 地址: | 611731 四川省*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 技术 分布式 方法 | ||
1.一种基于分形技术的分布式聚类方法,其特征在于:该方法的步骤如下:
步骤1:数据预处理;
步骤2:抽样聚类:中心节点从各子节点抽取总数量为N的数据并聚类;
步骤3:全局聚类;
步骤4:迭代完成步骤2-步骤3,直到达到最大抽样次数L;
步骤5:中心节点J0经过L次抽样聚类后;
步骤6:各子节点计算本地数据点的平均分形维数;
步骤7:各子节点计算本地数据点的平均分形维数与k个分形聚类中心的距离,将其划分为最近的那个聚类,即为最终聚类结果。
2.根据权利要求1所述一种基于分形技术的分布式聚类方法,其特征在于:
步骤1:数据预处理包括如下步骤;
步骤1.1:中心节点J0发出指令获取各子节点本地数据集的分布情况;
步骤1.2:各子节点计算本地数据集中的记录数ni及各属性的取值范围(Amin与Amax),并将数据上传至中心节点J0;
步骤1.3:中心节点J0合并各子节点数据集中各属性的取值范围,得到全局数据集中各属性的取值范围(A′min与A′max),然后将全局数据量n、A′min与A′max广播至各子节点;
步骤1.4:各子节点上本地数据中的各属性值按照属性的全局取值范围进行标准化;
步骤1.5:各子节点上本地数据的抽样概率初始化为1/ni。
3.根据权利要求1所述一种基于分形技术的分布式聚类方法,其特征在于:
步骤2:抽样聚类包括如下步骤;
步骤2.1:子节点按照比例抽样方式独立抽取本地数据并上传至中心节点,具体来说,子节点Ji将依据各数据点的抽样概率抽取总数为(ni/n)N的数据;
步骤2.2:中心节点J0汇总各子节点的抽样数据,并对抽样数据进行聚类,形成k个聚类中心;
步骤2.3:中心节点J0按照k个聚类中心将抽样数据集数据划分到各个聚类,计算每个聚类的局部分形维数,具体来说,第i个聚类分形维数表示为其中i=1,2...,k;
步骤2.4:中心节点J0计算全局聚类分形质量指数和第i个聚类的局部聚类分形质量指数
步骤2.5:将k个聚类中心及其分形维数、全局与局部聚类分形质量指数广播至各个子节点。
4.根据权利要求1所述一种基于分形技术的分布式聚类方法,其特征在于:
步骤3:全局聚类包括如下步骤;
步骤3.1:各个子节点遍历本地数据集,计算各个数据点与k个聚类中心的距离,将各个数据点标记为距离最近的那个聚类中心成员,具体来说,第i个子节点的第j个数据点所属聚类用表示;
步骤3.2:子节点更新本地数据集中各聚类数据的抽样概率:其中
5.根据权利要求1所述一种基于分形技术的分布式聚类方法,其特征在于:
步骤5包括如下步骤;
步骤5.1:计算全局抽样聚类质量指数Ω=∑i,j|Qi-Qj|和第r次抽样的局部抽样聚类质量指数Ωr=∑j|Qr-Qj|,其中r=1,...,L;
步骤5.2:L次抽样聚类共产生了L×k个聚类,每个聚类的分形维数为其中i=1,2,...,k,r=1,2,...,L;我们将这L×k个分形维数进行k-means聚类,产生k个分形聚类中心;
步骤5.3:将新的k各分形聚类中心以及Ω和Ωr广播到各子节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联易康科技有限公司;西南交通大学,未经成都数联易康科技有限公司;西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611257250.9/1.html,转载请声明来源钻瓜专利网。





