[发明专利]一种电网海量数据管理方法有效

申请号：	201510487734.1	申请日：	2015-08-10
公开（公告）号：	CN105069703B	公开（公告）日：	2018-08-28
发明（设计）人：	刘志刚;魏晓光;陈剑飞;刘小宝;戴昭	申请（专利权）人：	国家电网公司;国网山东省电力公司济南供电公司
主分类号：	G06F17/00	分类号：	G06F17/00
代理公司：	北京青松知识产权代理事务所(特殊普通合伙) 11384	代理人：	郑青松
地址：	100031 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种电网海量数据管理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种电网海量数据管理方法，其特征在于，包括：

构建电网用户数据管理系统，将各个电网子系统采集到的数据进行整合，并利用并行计算框架对电网用户的数据进行挖掘和分析；基于所述数据管理系统，利用分布式负载预测算法实现并行负载预测；

所述电网用户数据管理系统的架构分为应用层、数据分析计算层、数据管理层，利用Hadoop构建电网用户数据管理系统，在平台上采用HDFS、HBase建立数据存储系统，在平台上构建MapReduce并行计算框架和Storm内存并行计算框架作为海量数据计算分析系统，对电网用户的海量数据进行分析；所述数据管理层对数据进行采集和集成；所述数据采集包括从智能电表、数据采集监控系统和各种传感器中采集的数据，对这些数据的集成包括将数据迁移至集群服务器进行管理；在数据的集成过程中，采用数据转移工具对数据进行抽取和整合工作，将各个独立的系统产生的数据及历史数据利用数据转移工具抽取整合到HBase中，并使用java持久化工具对列存储数据库进行操作，将基于分布式计算的应用产生的在线数据写入到HBase中；所述数据分析计算层用于海量数据的存储和计算分析；利用HBase存储电力负载数据和相关数据；利用并行计算模块MapReduce对海量数据进行并行批量计算分析，而对数据密集型的迭代计算采用基于内存的并行计算模块Storm，将业务所需数据读入内存，需要数据时直接从内存中查询；

所述基于所述数据管理系统，利用分布式负载预测算法实现并行负载预测，进一步包括：

利用3个MapReduce业务类执行算法的训练过程，每一个MapReduce的输出作为其后一个的输入，训练结束后得到的决策模块保存在Hadoop的分布式集群中，其分为三部分：生成数据字典；生成判定树；形成判定树集合；

其中所述生成数据字典包括对进行训练的样本数据进行描述，产生一个文件来描述样本中条件属性和决策属性，记录条件属性值的类型和决策属性的位置，以及要创建的模块是进行分类还是回归运算，这个过程由第一个MapReduce完成，每个Map过程读取实验数据的一部分，记录数据的属性类型和负载值或者类型标识；产生的描述文件以键/值的形式存储在Hadoop的文件系统HDFS中；

其中所述生成判定树过程包括以下并行过程：

1)对原数据集进行随机有放回的抽取K个与原样本数据集大小一样的样本数据TS_{1，2，…，k}；一个样本数据对应一个判定树的训练集，每个样本数据都不同，并且与原数据集大小一样；

2)根据样本数据中属性的个数M确定每个节点随机选择的属性个数m，其中m<<M，分类模块中m为M的平方根，回归模块中m为M的1/3；计算m个属性中每个属性的信息量，选择最佳属性进行分支；

3)递归进行节点的建立，生成判定树；K个判定树的生成是并行产生的，一个Map生成一个判定树，这个过程由第二个MapReduce过程完成；

所述形成判定树集合包括把每个判定树分类器组合起来，每个判定树产生一个结果，如果判定树集合用来分类其最终结果为投票选取，当它用来回归预测时，K个树给出K个值，最终值为各树的平均值，此过程由第三个MapReduce完成。

2.根据权利要求1所述的方法，其特征在于，在所述HBase系统的部署架构中，将调度中心作为整个分布式实时数据库的管理者，存储元数据信息，包括各节点分工、节点状态、数据分区方式、数据块位置、任务调度、安全管理的关键信息；所述调度中心相互间通过同步机制保持元数据的一致性，数据分析计算层逻辑上是对等的，部署相同进程完成同样的逻辑运算，数据分析计算层采用基于事务的冗余备份机制，电网用户数据管理系统采用HDFS作为底层存储的分布式文件系统，构建面向电网海量数据的时序控制组件来存储电网业务中的时序数据，由时序控制组件来构建时序数据模块，按照特有模块统一接收存储采集的时序数据，并对外提供统一的查询接口；

在存储方式上，采用键-值的形式来存储数据，即面向列进行存储，以列族为基本的存储和权限控制单元，对于为空的列，在实际存储中不占用实际空间，使用稀疏表的设计方式，在数据架构部署上放弃了传统的C/S多客户端、单服务器的模式；采用分布式的多服务器的集群模式，所有数据根据复制因子分散存储于集群中的多台计算机上；时序控制组件底层依赖于列存储数据库，在具体处理时序数据时抽象为对HBase数据库的读、写、增加、删除、修改的基本操作，软件最上层为时序控制组件的客户端及第三方应用客户端，所有客户端通过Java的API进行具体操作，所有API通过类型解析模块解析分解为一个数据库操作或多个数据库操作的序列集合，这些数据库操作集合通过控制组件内部的RPC调用，最后统一使用异步的HBase操作API完成数据操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家电网公司;国网山东省电力公司济南供电公司，未经国家电网公司;国网山东省电力公司济南供电公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510487734.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种满足用户咨询的景点信息推送方法
下一篇：一种智能变电站检修策略自动识别系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种电网海量数据管理方法有效

专利文献下载