[发明专利]一种计算机快速海量数据聚类处理方法有效

专利信息
申请号: 201310748302.2 申请日: 2013-12-31
公开(公告)号: CN103744935B 公开(公告)日: 2017-06-06
发明(设计)人: 李中;杨宏;张珂 申请(专利权)人: 华北电力大学(保定)
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 石家庄冀科专利商标事务所有限公司13108 代理人: 李羡民,高锡明
地址: 071003 河*** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种计算机快速海量数据聚类处理方法,所述方法首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心,并可查询得到各个子类内部数据对象分布概况与及其特征,极大地方便了海量数据的快速有效处理。
搜索关键词: 一种 计算机 快速 海量 数据 处理 方法
【主权项】:
一种计算机快速海量数据聚类处理方法,其特征是,所述方法以计算机作为数据处理、存储的工具,处理时,计算机首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果,所述方法包括以下步骤:a.数据对象预处理对所有数目为K的待分析数据对象进行预处理,预处理的具体方法是:对于任一给定数据维度是m的待聚类数据对象i=(i1,i2,...,im)添加2个数值型属性值iID和iNUM,其中iID是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到K;iNUM是该待聚类数据对象的权重,其值均设定为1;b.建立一个(K‑1)行(5+2×m)列的数组REC,其初始值全取值为0,用于保存聚类处理过程;c.数据对象分组将所有数据对象随机均分为M组,每组包含N=[K/M]个数据对象,若不能均分,则最后一组数据对象数目等于K‑(M‑1)×[K/M],[·]为取整运算;d.计算每组内N个数据对象之间的相似度矩阵SN×N,s[i,j]≥0,i∈[1,2,…,N],j∈[1,2,…,N];e.依据相似度矩阵SN×N,选择组内当前相似度最大的两个数据对象i=(i1,i2,...,im,iID,iNUM)和数据对象j=(j1,j2,...,jm,jID,jNUM);若非唯一,则任选其一,合并生成新数据对象k=(k1,k2,...,km,kID,kNUM),从本组中删除数据对象i=(i1,i2,...,im,iID,iNUM)和数据对象j=(j1,j2,...,jm,jID,jNUM);在数组REC中保存合并生成记录;f.重复上述步骤d、步骤e,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;g.令M=[M/2],[·]为取整运算,若满足M>2,则重复执行上述步骤c、步骤d、步骤e及步骤f,否则执行步骤h;h、将剩余所有数据对象作为一组,重复执行上述步骤d、步骤e,直至组内只剩1个数据对象;i.查询REC中的查询合并记录,获取聚类处理结果REC中最后一条记录表明了将所有聚类数据划分为2类的结果,包含2个子类数据对象的属性值的算数平均值和类内对象数目;在步骤e中所述数据对象i=(i1,i2,...,im,iID,iNUM)和数据对象j=(j1,j2,...,jm,jID,jNUM)合并生成新数据对象k=(k1,k2,...,km,kID,kNUM)的具体方法是:kNUM=iNUM+jNUMkn=(in×iNUM+jn×jNUM)/kNUM,n=1,2,...,mkID=imax_ID+1式中,imax_ID是所有数据对象的标识值中的最大值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310748302.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top