[发明专利]基于Hadoop的电力大数据处理系统在审
| 申请号: | 202011186843.7 | 申请日: | 2020-10-30 |
| 公开(公告)号: | CN112256782A | 公开(公告)日: | 2021-01-22 |
| 发明(设计)人: | 薄宏斌;张彦斌;王瀚霆;范继锋;仲文博;何世雄;赵俊杰;马兆嵘;慕佩良;王欣;李中为 | 申请(专利权)人: | 内蒙古电力(集团)有限责任公司乌海超高压供电局 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/27;G06Q10/06;G06Q50/06 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 016000 内蒙古自*** | 国省代码: | 内蒙古;15 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 hadoop 电力 数据处理系统 | ||
1.一种基于Hadoop的电力大数据处理系统,其特征在于:包括数据集成子系统、数据仓库子系统、数据质量管理子系统;
所述数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;
所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;所述数据仓库划分为四个逻辑区域:源数据存储区、数据暂存区、数据存储区、中央数据仓库/数据集市;
所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告。
2.根据权利要求1所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据集成子系统包括数据采集模块和数据处理模块;
所述数据采集模块以不同方式根据采集规则进行监控并采集相应的数据,并通过调用数据转换组件完成封装,再通过交换传输功能来完成数据从数据源到大数据平台的采集;采集驱动分为系统主动抽取和被动接收两种情况;
所述主动抽取利用变化数据捕获、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;
所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中。
3.根据权利要求2所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据处理模块进行数据处理的具体过程为:
步骤1、数据预处理:加载源电力数据,增加时间拉链,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;
步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;
步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古电力(集团)有限责任公司乌海超高压供电局,未经内蒙古电力(集团)有限责任公司乌海超高压供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011186843.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种服装设计用描线装置
- 下一篇:一种用于毒品尿液自动化监控的设备





