[发明专利]一种海量负荷曲线的分布式聚类方法在审
申请号: | 201510747122.1 | 申请日: | 2015-11-04 |
公开(公告)号: | CN105447082A | 公开(公告)日: | 2016-03-30 |
发明(设计)人: | 林国营;杨骏伟;谭跃凯;曾智健;朱文俊;罗敏;阙华坤;谭伟聪;王毅 | 申请(专利权)人: | 广东电网有限责任公司电力科学研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/06 |
代理公司: | 广州知友专利商标代理有限公司 44104 | 代理人: | 尤健雄;周克佑 |
地址: | 510080 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 负荷 曲线 分布式 方法 | ||
技术领域
本发明涉及一种海量负荷曲线的分布式聚类方法,属于电力行业的用电大数据处理领域。
背景技术
随着智能电表的普及,电力系统对用户的用电信息采集能力越来越强,有别于传统的每月抄表,智能电表能够对用户的用电数据进行更高频率的采集与存储。每小时甚至更细粒度的用电数据为分析用户用电行为提供了丰富的信息来源。对用户用电数据的挖掘、有效识别用户用电模式在评估需求响应潜力、提高负荷预测精度、指导电价制定等方面具有重要意义。
通过聚类分析,获取典型的负荷曲线,把纷繁复杂的负荷曲线根据各自的特点分为不同的类别是用户用电行为分析的重要一步。然而,用户用电数据一方面随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集点分布在不同地区,具有极强的分散性。用电数据的体量大、分布广等特性为传统的用电曲线聚类带来了极大的挑战,需要寻求适用于海量的分布于不同地区的负荷曲线的高效聚类算法。
传统的负荷曲线聚类方法存在的不足之处至少体现在三个方面:1)传统的聚类算法需要对数据进行集中处理,提高了数据的通讯和存储成本;2)对所有的数据直接统一同时处理会极大增加计算时间;3)大规模的运算也需要开辟较大的计算机内存。
发明内容
本发明所要解决的技术问题是:提供一种海量负荷曲线的分布式聚类方法,以解决现有负荷曲线聚类方法效率低、处理时间长、耗费计算资源大、数据通讯和存储成本的问题。
解决上述技术问题,本发明所采用的技术方案如下:
一种海量负荷曲线的分布式聚类方法,包括:
步骤S1,将受聚类区域内所有用户划分为M个用户子集,并对应每一个用户子集设置一个局部数据中心,用各个局部数据中心分别采集对应用户子集中每一个用户在预设天数内的原始日负荷曲线,其中,M为大于1的正整数,每一个用户子集中至少包含一个用户,每一条原始日负荷曲线包含的负荷采集点数量均为T;
步骤S2,用所述各个局部数据中心分别对各自采集到的每一条原始日负荷曲线进行校验和归一化处理,得到归一化日负荷曲线;
步骤S3,在所有的所述局部数据中心设置相同的最小聚类数量Kmin、最大聚类数量Kmax和聚类误差指标B,并用所述各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类,得到每一个局部数据中心的局部聚类和局部典型曲线,其中,任意一个所述局部数据中心进行自适应局部聚类的步骤包括:
步骤S31,对该局部数据中心处理得到的所有归一化日负荷曲线进行k取值为Kmin的k-means聚类分析,得到Kmin个聚类,并将该Kmin个聚类标记为未检验聚类;
步骤S32,对该局部数据中心的未检验聚类进行检验,判断其是否满足所述聚类误差指标B,其中,判断步骤S31得到的第j个聚类是否满足所述聚类误差指标B即判断该第j个聚类是否满足以下条件式(2)的约束:
式中,j为正整数且1≤j≤Kmin,Ej表示第j聚类的总代表误差,N表示属于第j聚类的归一化日负荷曲线的数量,为第j聚类的聚类中心的第t个负荷采集点,为属于第j聚类的第i条归一化日负荷曲线的第t个负荷采集点,i为正整数且1≤i≤N,t为正整数且1≤t≤T;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司电力科学研究院,未经广东电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510747122.1/2.html,转载请声明来源钻瓜专利网。