[发明专利]一种针对广域量测电力大数据数据质量的快速在线评估方法在审
申请号: | 201811280578.1 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109492683A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 柳永妍;曹孝俊;汤吉鸿;朱军飞;杨丹;左剑 | 申请(专利权)人: | 国网湖南省电力有限公司;国网湖南省电力有限公司电力科学研究院;国家电网有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06;G06Q50/06 |
代理公司: | 长沙市融智专利事务所 43114 | 代理人: | 欧阳迪奇 |
地址: | 410007 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 评估规则 评估指标 权重系数 在线评估 广域 量测 预处理 广域量测系统 层次分析法 个数百分比 异常值检测 有效性评估 电力系统 检测结果 聚类算法 快速评估 在线应用 综合评估 唯一性 并行化 算法 电网 评估 改进 统计 | ||
1.一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,包括如下步骤:
步骤1:获取给定时段内广域量测系统的实时电力大数据;
步骤2:采用MapReduce并行化K-means聚类算法对确定的电力大数据对象进行快速的预处理:将电力大数据集通过K-means聚类算法分类为若干小数据集,且每个小数据集中的数据对象之间具有相似性;
步骤3:对经过预处理的电力大数据对象采用基于KNN的快速密度峰值异常值检测算法来进行正确性指标的评估:基于小数据集中每个样本与其他样本之间的欧氏距离来计算该样本的局部密度,并根据局部密度得到KNN距离,然后将局部密度小于预设密度阈值和KNN距离大于预设距离阈值的样本作为异常数据,并据此评估电力大数据对象的正确性;
步骤4:继续对经过预处理的电力大数据对象进行评估:基于完整性、唯一性、准确性、一致性和有效性这五个评估指标建立对应的电力大数据质量评估规则,评估规则即判断数据是否符合评估要求的规则,其中完整性是检测数据是否存在缺失记录或缺失字段,唯一性是检测数据是否存在重复的记录,准确性是检测数据值的精度是否符合要求,一致性是检测同一属性数据在表达格式上是否一致,有效性是检测数据是否符合数据格式和值域范围的要求;
步骤5:利用层次分析法快速确定各评估指标的权重系数:根据步骤3和4中的评估指标和评估规则,采用1-9标度法形成判断矩阵并检验判断矩阵的一致性,再对判断矩阵进行列归一化并计算每一行的平均值,得到评估指标的权重系数;
步骤6:根据电力大数据质量评估规则中的每条评估规则,对经过预处理的电力大数据对象进行快速检测分析,统计满足评估规则的数据个数百分比,再根据步骤5中得到的各评估指标权重系数和检测结果,计算出电力大数据质量的综合评估值。
2.根据权利要求1所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,所述步骤2包括以下步骤:
以步骤1中得到的电力大数据对象作为聚类样本集H={h1,h2,...,hj,...,hn},其中hj为数据对象,将原始数据分成k个类别,其中k≤n,用si(i=1,2,...,k)表示在n个数据对象中选出的k个聚类中心,聚类中心si(i=1,2,...,k)是同一类别数据对象的算数平均值,即
其中Ni为类i的数据对象个数,hi为类i中的数据对象;
对于不属于聚类中心的数据对象,根据到每一个聚类中心的相似度即欧氏距离进行分配,然后重新计算新的聚类中心即聚类对象的均值,不断重复此过程直至标准测度函数收敛,标准测度函数为
其中hj为类i中的数据对象,J为聚类样本集中所有数据的均方差之和。
3.根据权利要求1所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,所述步骤3包括以下步骤:
在步骤2中得到的每个小数据集中,计算任一样本xi与其他样本之间的欧氏距离d(xi,xj),并将计算结果按照升序排列,以对应第k个距离的样本为Nk(xi),xi的K个最近邻为:
N(xi)={j∈X|d(xi,xj)≤d(xi,Nk(xi))}
用N(xi)来计算xi的局部密度
其中K=ρN,ρ是数据集的总样本数N的百分比;
KNN距离为:
其中dij为xi与xj之间的距离;
异常样本为:局部密度且距离值其中,局部密度阈值为:
距离阈值的定义为:
其中γρ和γδ为经验参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网湖南省电力有限公司;国网湖南省电力有限公司电力科学研究院;国家电网有限公司,未经国网湖南省电力有限公司;国网湖南省电力有限公司电力科学研究院;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811280578.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多分枝随机森林数据分类方法
- 下一篇:数据处理方法及装置