[发明专利]一种电网海量数据管理方法有效
申请号: | 201510487734.1 | 申请日: | 2015-08-10 |
公开(公告)号: | CN105069703B | 公开(公告)日: | 2018-08-28 |
发明(设计)人: | 刘志刚;魏晓光;陈剑飞;刘小宝;戴昭 | 申请(专利权)人: | 国家电网公司;国网山东省电力公司济南供电公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙) 11384 | 代理人: | 郑青松 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种电网海量数据管理方法,该方法包括:构建电网用户数据管理系统,将各个电网子系统采集到的数据进行整合,并利用并行计算框架对电网用户的数据进行挖掘和分析;基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测。本发明提出了一种电网海量数据管理方法,将电网用户各系统的数据进行融合和集成,并将传统数据计算方法迁移到分布式平台中,满足海量数据的运算要求。 | ||
搜索关键词: | 一种 电网 海量 数据管理 方法 | ||
【主权项】:
1.一种电网海量数据管理方法,其特征在于,包括:构建电网用户数据管理系统,将各个电网子系统采集到的数据进行整合,并利用并行计算框架对电网用户的数据进行挖掘和分析;基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测;所述电网用户数据管理系统的架构分为应用层、数据分析计算层、数据管理层,利用Hadoop构建电网用户数据管理系统,在平台上采用HDFS、HBase建立数据存储系统,在平台上构建MapReduce并行计算框架和Storm内存并行计算框架作为海量数据计算分析系统,对电网用户的海量数据进行分析;所述数据管理层对数据进行采集和集成;所述数据采集包括从智能电表、数据采集监控系统和各种传感器中采集的数据,对这些数据的集成包括将数据迁移至集群服务器进行管理;在数据的集成过程中,采用数据转移工具对数据进行抽取和整合工作,将各个独立的系统产生的数据及历史数据利用数据转移工具抽取整合到HBase中,并使用java持久化工具对列存储数据库进行操作,将基于分布式计算的应用产生的在线数据写入到HBase中;所述数据分析计算层用于海量数据的存储和计算分析;利用HBase存储电力负载数据和相关数据;利用并行计算模块MapReduce对海量数据进行并行批量计算分析,而对数据密集型的迭代计算采用基于内存的并行计算模块Storm,将业务所需数据读入内存,需要数据时直接从内存中查询;所述基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测,进一步包括:利用3个MapReduce业务类执行算法的训练过程,每一个MapReduce的输出作为其后一个的输入,训练结束后得到的决策模块保存在Hadoop的分布式集群中,其分为三部分:生成数据字典;生成判定树;形成判定树集合;其中所述生成数据字典包括对进行训练的样本数据进行描述,产生一个文件来描述样本中条件属性和决策属性,记录条件属性值的类型和决策属性的位置,以及要创建的模块是进行分类还是回归运算,这个过程由第一个MapReduce完成,每个Map过程读取实验数据的一部分,记录数据的属性类型和负载值或者类型标识;产生的描述文件以键/值的形式存储在Hadoop的文件系统HDFS中;其中所述生成判定树过程包括以下并行过程:1)对原数据集进行随机有放回的抽取K个与原样本数据集大小一样的样本数据TS1,2,…,k;一个样本数据对应一个判定树的训练集,每个样本数据都不同,并且与原数据集大小一样;2)根据样本数据中属性的个数M确定每个节点随机选择的属性个数m,其中m<
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;国网山东省电力公司济南供电公司,未经国家电网公司;国网山东省电力公司济南供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510487734.1/,转载请声明来源钻瓜专利网。