[发明专利]基于Spark技术的计量设备典型运行曲线评估方法及系统在审
申请号: | 201810866008.4 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109376132A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 许灵洁;郭鹏;陈骁;沈建良;张卫华;吕几凡;李航康;方良飞;严华江;何文林;楼平;韩中杰;魏泽民;范金玉 | 申请(专利权)人: | 国网浙江省电力有限公司电力科学研究院;国网浙江省电力有限公司湖州供电公司;国网浙江省电力有限公司嘉兴供电公司;国家电网有限公司;国网信息通信产业集团有限公司;福建亿榕信息技术有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/26;G06F16/28 |
代理公司: | 浙江翔隆专利事务所(普通合伙) 33206 | 代理人: | 张建青 |
地址: | 310014 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计量设备 运行数据 典型曲线 聚类 聚类分析 运行曲线 挖掘 评估 计量 可靠性分析手段 不同环境条件 机器学习算法 分布式运行 可视化技术 并行计算 海量数据 离线计算 数据存储 运行结果 运行趋势 可视化 应用 参考 分析 研究 | ||
本发明公开了一种基于Spark技术的计量设备典型运行曲线评估方法及系统。目前的评估方法采用简单的可靠性分析手段,不具备计量设备运行数据隐藏价值的挖掘能力。本发明包括:基于HDFS的分布式运行数据存储;基于Spark并行计算框架的MLlib机器学习算法应用:基于海量的运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线;基于可视化技术实现计量运行数据典型曲线聚类可视化。本发明通过对计量设备运行数据进行深度挖掘其隐藏价值,实现计量海量数据大应用;利用聚类分析方法,对计量设备运行结果进行典型曲线聚类分析,能够得到不同环境条件下计量设备整体的典型曲线运行趋势,为计量设备的研究提供重要的参考作用。
技术领域
本发明属于计量设备领域,具体地说是一种基于Spark技术的计量设备典型运行曲线评估方法及系统。
背景技术
计量设备的运行数据规模不断增大,考虑到计量设备运行数据的规模巨大,符合大数据Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)的特点,如何对实时运行的数据进行高效存储、稳定分析及深度挖掘已成为重要研究方向;同时,计量设备运行过程中的环境及误差特性已成为研究计量设备的可靠性的评估标准,通过开展典型环境及误差下的计量设备典型曲线分析,对计量设备的研究有着重要的指导意义。
当前对计量设备的可靠性及稳定性的评估主要通过对历史数据进行稳定性分析及相关性分析等等。稳定性分析主要从时间维度通过建立可视化的日、周、月等周期的标准方差计算图,实现对计量设备稳定性的评估。相关性分析主要通过对计量运行数据与环境、误差数据的实时曲线图比较,人为直观的得出其正负相关的关联性。以上评估分析方法均需对可视化分析图,进行头脑二次加工分析,缺乏计算机智能辨识及相关分析应用方法。同时,上述方法为简单的可靠性分析手段,不具备计量设备运行数据隐藏价值的挖掘能力。
发明内容
本发明所要解决的技术问题是克服上述现有技术存在的缺陷,提供一种基于Spark技术的计量设备典型曲线评估方法,其充分考虑当前计量运行数据的利用情况,深度挖掘运行数据中的隐藏价值,进而提炼出计量设备在典型环境下的典型曲线。
为此,本发明采用的技术方案如下:基于Spark技术的计量设备典型运行曲线评估方法,其包括步骤:
1)基于HDFS的分布式运行数据存储:通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储,包含2个数据存储节点及1个管理节点;
2)基于Spark并行计算框架的MLlib机器学习算法应用:基于海量的计量设备运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线;
3)基于可视化技术实现计量运行数据典型曲线聚类可视化。
作为上述技术方案的补充,步骤1)中,选择应用点的计量设备,基于MOBUS协议读取运行环境、比差和电能数据进行关系型数据库写入操作,通过Sqoop进行各个应用点数据整合,实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。
HDFS为分布式文件存储系统,其在存储海量数据方面通过分布式管理节点、数据节点的存储,在保障数据一致性的同时,提供高可用性集群部署方案,能极大提升存储效率及数据运算的性能。
作为上述技术方案的补充,所述的步骤2)具体包括:
21)构建海量计量设备运行数据的HDFS分布式存储数据库,为典型曲线的聚类计算提供数据;
22)实例化RDD对象并建立基于聚类算法的计量曲线提取模式;
23)构建spark聚类任务运算机制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司电力科学研究院;国网浙江省电力有限公司湖州供电公司;国网浙江省电力有限公司嘉兴供电公司;国家电网有限公司;国网信息通信产业集团有限公司;福建亿榕信息技术有限公司,未经国网浙江省电力有限公司电力科学研究院;国网浙江省电力有限公司湖州供电公司;国网浙江省电力有限公司嘉兴供电公司;国家电网有限公司;国网信息通信产业集团有限公司;福建亿榕信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810866008.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日志分布式部署保存方法、装置及系统
- 下一篇:文件访问方法及文件访问系统