[发明专利]一种计算机快速海量数据聚类处理方法有效
| 申请号: | 201310748302.2 | 申请日: | 2013-12-31 |
| 公开(公告)号: | CN103744935B | 公开(公告)日: | 2017-06-06 |
| 发明(设计)人: | 李中;杨宏;张珂 | 申请(专利权)人: | 华北电力大学(保定) |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 石家庄冀科专利商标事务所有限公司13108 | 代理人: | 李羡民,高锡明 |
| 地址: | 071003 河*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 一种计算机快速海量数据聚类处理方法,所述方法首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心,并可查询得到各个子类内部数据对象分布概况与及其特征,极大地方便了海量数据的快速有效处理。 | ||
| 搜索关键词: | 一种 计算机 快速 海量 数据 处理 方法 | ||
【主权项】:
一种计算机快速海量数据聚类处理方法,其特征是,所述方法以计算机作为数据处理、存储的工具,处理时,计算机首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果,所述方法包括以下步骤:a.数据对象预处理对所有数目为K的待分析数据对象进行预处理,预处理的具体方法是:对于任一给定数据维度是m的待聚类数据对象i=(i1,i2,...,im)添加2个数值型属性值iID和iNUM,其中iID是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到K;iNUM是该待聚类数据对象的权重,其值均设定为1;b.建立一个(K‑1)行(5+2×m)列的数组REC,其初始值全取值为0,用于保存聚类处理过程;c.数据对象分组将所有数据对象随机均分为M组,每组包含N=[K/M]个数据对象,若不能均分,则最后一组数据对象数目等于K‑(M‑1)×[K/M],[·]为取整运算;d.计算每组内N个数据对象之间的相似度矩阵SN×N,s[i,j]≥0,i∈[1,2,…,N],j∈[1,2,…,N];e.依据相似度矩阵SN×N,选择组内当前相似度最大的两个数据对象i=(i1,i2,...,im,iID,iNUM)和数据对象j=(j1,j2,...,jm,jID,jNUM);若非唯一,则任选其一,合并生成新数据对象k=(k1,k2,...,km,kID,kNUM),从本组中删除数据对象i=(i1,i2,...,im,iID,iNUM)和数据对象j=(j1,j2,...,jm,jID,jNUM);在数组REC中保存合并生成记录;f.重复上述步骤d、步骤e,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;g.令M=[M/2],[·]为取整运算,若满足M>2,则重复执行上述步骤c、步骤d、步骤e及步骤f,否则执行步骤h;h、将剩余所有数据对象作为一组,重复执行上述步骤d、步骤e,直至组内只剩1个数据对象;i.查询REC中的查询合并记录,获取聚类处理结果REC中最后一条记录表明了将所有聚类数据划分为2类的结果,包含2个子类数据对象的属性值的算数平均值和类内对象数目;在步骤e中所述数据对象i=(i1,i2,...,im,iID,iNUM)和数据对象j=(j1,j2,...,jm,jID,jNUM)合并生成新数据对象k=(k1,k2,...,km,kID,kNUM)的具体方法是:kNUM=iNUM+jNUMkn=(in×iNUM+jn×jNUM)/kNUM,n=1,2,...,mkID=imax_ID+1式中,imax_ID是所有数据对象的标识值中的最大值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310748302.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种高效磁力搅拌装置
- 下一篇:自动蜗杆传动草料切段机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





