[发明专利]一种计算机快速海量数据聚类处理方法有效

申请号：	201310748302.2	申请日：	2013-12-31
公开（公告）号：	CN103744935B	公开（公告）日：	2017-06-06
发明（设计）人：	李中;杨宏;张珂	申请（专利权）人：	华北电力大学（保定）
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	石家庄冀科专利商标事务所有限公司13108	代理人：	李羡民,高锡明
地址：	071003 河***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种计算机快速海量数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种具有数据概况分析能力的快速海量数据分析方法，属数据处理技术领域。

背景技术

计算机在对数据进行处理时，为提高处理速度，需要对海量数据进行聚类。所述聚类是按照数据本身的相似性（一般为距离准则，距离越小、相似度越大）把一个数据集分割成不同的类或簇，使类内数据对象的相似性尽可能大，同时类间数据对象的差异性也尽可能的大。聚类处理能够帮助人们发现隐藏在海量数据背后的潜在规律，对于信息处理和知识发现具有重要的意义，在数据挖掘、机器学习、模式识别、统计学和生物学等许多领域得到了广泛的应用。

聚类处理种类繁多，但效果较好的聚类方法大都计算复杂，速度较慢，无法满足计算机大规模数据的快速聚类处理需求，此外，缺乏对数据概况的分析能力，也是现有聚类方法在计算机进行处理时普遍存在的一个缺陷。

发明内容

本发明的目的在于针对现有技术之弊端，提供一种具有数据概况分析能力的快速海量数据聚类方法，以解决计算机对大量数据进行聚类处理时的效率和聚类数据概况分析问题。

本发明所述问题是以下述技术方案实现的：

一种计算机快速海量数据聚类处理方法，所述方法以计算机作为数据处理、存储的工具，处理时，计算机首先对待分析数据对象进行预处理，完成数据对象的分组，然后计算组内数据对象的相似度矩阵，并依据相似度大小合并生成新数据对象，记录合并生成过程同时删除旧数据对象，如此反复操作直至数据对象的数目等于用户期待的聚类分类数，最后通过查询合并记录获取聚类处理结果，所述方法包括以下步骤：

a.数据对象预处理

对所有待分析数据对象（数目为）进行预处理，预处理的具体方法是：对于任一给定数据维度是的待聚类数据对象添加2个数值型属性值和，其中是该数据对象的唯一标识，其取值为自然数，数值大小依据预处理顺序自1开始，依次递增1到；是该待聚类数据对象的权重，其值均设定为1；

b.建立一个行列的数组，其初始值全取值为0，用于保存聚类处理过程；

c.数据对象分组

将所有数据对象随机均分为组，每组包含=个数据对象，若不能均分，则最后一组数据对象数目等于，为取整运算；

d.计算每组内个数据对象之间的相似度矩阵，，，；

e.依据相似度矩阵，选择组内当前相似度最大的两个数据对象和数据对象（若非唯一，则任选其一）合并生成新数据对象，从本组中删除数据对象和数据对象；在数组中保存合并生成记录；

f.重复上述步骤d、步骤e，直至每组内数据对象数目减少一半，也即数据对象总数目减少一半；

g.令=，为取整运算，若满足，则重复执行上述步骤c、步骤d、步骤e、步骤f，否则执行步骤h；

h、将剩余所有数据对象作为一组，重复执行上述步骤d、步骤e，直至组内只剩1个数据对象；

i.查询中的查询合并记录，获取聚类处理结果

中最后一条记录表明了将所有聚类数据划分为2类的结果，包含2个子类数据对象的属性值的算数平均值和类内对象数目。

上述计算机快速海量数据聚类处理方法，步骤e中所述数据对象和数据对象合并生成新数据对象的具体方法是：

，，

式中，是所有数据对象的标识值中的最大值。

上述计算机快速海量数据聚类处理方法，步骤e中所述在中保存合并生成记录的具体方法是：在的第1个取值全0的行（记为第行）的第一列赋值为，即令，其后各列依次记录数据对象和数据对象。

本发明通过对数据进行分组，有效降低了计算复杂度；新数据对象的合并生成方法选择2个相似度最大的数据对象进行合并，并有效记忆了这2个原有数据对象的信息；记录合并生成过程为聚类和数据概况分析提供了简洁、良好的结构。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心，并可查询得到各个子类内部数据对象分布概况与及其特征，极大地方便了海量数据的快速有效处理。本发明方法计算简便、数据概况分析能力强，适于海量数据的快速聚类处理，可广泛应用于各种聚类处理工作中。

附图说明

下面结合附图对本发明作进一步说明。

图1是本发明的流程图。

文中各符号为：、所有待分析数据对象的数目，、数据维度，、、数据对象，、该数据对象的唯一标识，、该待聚类数据对象的权重，、数组，、个数据对象之间的相似度矩阵，、合并生成的新数据对象。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华北电力大学（保定），未经华北电力大学（保定）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310748302.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种计算机快速海量数据聚类处理方法有效

专利文献下载