[发明专利]一种基于改进随机森林算法的电压缺失数据辨识方法在审
申请号: | 202110397003.3 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113468796A | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 李绍坚;韦明超;罗淑芳;莫江婷;甘静;夏斌;王益成;周觅路;韦社敏;鲁林军;陈柏昌;黄伟;陶海峰 | 申请(专利权)人: | 广西电网有限责任公司南宁供电局 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;G06Q10/04;G06Q50/06;G06F111/08 |
代理公司: | 广州市专注鱼专利代理有限公司 44456 | 代理人: | 柴燕 |
地址: | 530029 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 随机 森林 算法 电压 缺失 数据 辨识 方法 | ||
本发明公开了一种基于改进随机森林算法的电压缺失数据辨识方法,其中方法步骤包括:获取电网历史数据,选择缺失数据所有对应的关联属性,进行不同的属性划分;通过属性综合加权计算得到学习样本集合;对学习样本进行重复抽样,得到若干个相似样本集合;将所述相似样本集合作为输入,训练随机森林回归模型;提高随机森林回归预测精度;将所有决策树的最终预测均值作为填补结果,评估填补结果,填补结果在容忍范围则填补完成。通过本发明提高对缺失数据的辨识精度,从而提高了电网缺失值的填补精度。
技术领域
本发明电力系统数据融合中常出现的电压值缺失问题的技术领域,尤其涉 及一种基于改进随机森林算法的电压缺失数据辨识方法。
背景技术
随着电网的高速发展,各类系统对数据的需求越来越依赖,然而在数据采 集和传输的过程中,常因通道量测和人为等因素,不可避免导致部分数据的丢 失或异常。缺失或异常的数据对系统的运行以及进一步的数据分析都会造成影 响,导致输出结果的异常。
尽管目前的研究对缺失数据的填补都取得了较好的效果,但是却较少对缺 失值属性的关联属性进行研究和分析,缺失值的关联属性对填补结果有较大影 响,基于属性综合加权的改进随机森林算法,对缺失数据进行辨识,提高缺失 数据的辨识精度,提高电网缺失值的填补精度。
发明内容
为了克服现有技术的不足,本发明提供了一种基于改进随机森林算法的电 压缺失数据辨识方法,实现对缺失数据进行了辨识,提高缺失数据的辨识精度, 提高电网缺失值的填补精度。
为了实现上述发明目的,本发明提供了一种基于改进随机森林算法的电压 缺失数据辨识方法,包括以下步骤:
S1:获取电网历史数据,选择缺失数据所有对应的关联属性,进行不同的属 性划分;
S2:通过属性综合加权计算得到学习样本集合;
S3:对学习样本进行重复抽样,得到若干个相似样本集合;
S4:将所述相似样本集合作为输入,训练随机森林回归模型;
S5:通过减少决策树间的关联性和提高决策树的精度,提高随机森林回归预 测精度;
S6:将所有决策树的最终预测均值作为填补结果,评估填补结果,填补结果 在容忍范围则填补完成。
对所述关联属性进行各属性间的互相关系数计算,互相关系数大于给定阀值 的属性存入互相关集合HG;
所述关联属性的各属性间的互相关系数计算公式如下,
当皮尔逊系系数用于总体时,如式(1)所示:
X,Y为两个不同属性随机变量,σX,σY分别是X,Y的标准差,cov(X,Y)为协 方差,如式(2)所示:
n表示样本的数量。
当皮尔逊系系数用于样本时,如式(3)所示:
xi,yi为变量X,Y对应i的观测点值,分别为对应X,Y的样本均值;
通过皮尔逊系数计算各属性间的互相关系数,选择互相关系数大于给定阀 值的属性存入互相关集合HG。
将所述互相关集合HG进行属性误差期望计算,属性误差期望大于强相关 阀值,存入强相关属性集合QX;
所述互相关集合HG的属性误差期望计算公式如下,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西电网有限责任公司南宁供电局,未经广西电网有限责任公司南宁供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110397003.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种鼻梁条自动上料装置
- 下一篇:监测钻机在钻探过程中地层变化的装置及方法