[发明专利]一种基于不平衡数据集情况下的风机叶片结冰预测方法有效

申请号：	201910207037.4	申请日：	2019-03-19
公开（公告）号：	CN109978039B	公开（公告）日：	2020-10-16
发明（设计）人：	岳东;葛阳鸣;卜阳;宋星星	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	李凤娇
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于不平衡数据情况风机叶片结冰预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于不平衡数据集情况下的风机叶片结冰预测方法，其特征在于：包括如下步骤：

步骤1)对风电场的历史气象数据、风机运行状态数据进行搜集整理，最终将整理好的数据存储在数据库中，方便预测时使用；其中的风电场的历史气象数据以及风机运行状态数据和预测目标构成一个风机历史数据训练向量，所述风机历史数据训练向量具体包括如下维度：风速、风力发电转速、风力发电转速、环境温度、发电机内部温度、风机叶片是否出现结冰现象，表示为：

X＝[v_w,v_g,p,t_e,t_i,f]

其中v_w表示风速；v_g表示风力发电转速；p表示风力发电转速；t_e表示环境温度；t_i表示发电机内部温度；f表示风机叶片是否出现结冰现象；

步骤2)对搜集整理到的风机历史数据训练向量组成的风机历史数据样本进行“极差法”归一化处理，使得处理后的数据更加适合学习模型训练；其中归一化计算公式为：

式中，X表示风机历史数据样本；X_min表示风机历史数据样本中的最小值；X_max表示风机历史数据样本中的最大值；X_new为处理后的风机历史数据样本；

步骤3)根据风机历史数据样本中少数类样本的数据分布状况与不同聚类数目情况下Calinski-Harabasz Index评分系数大小，所述少数类样本为风机历史数据样本中风机结冰时所对应的数据样本；首先假定集合中BIRCH聚类数目，后经过Calinski-HarabaszIndex评分系数确定后，获得评分系数最高聚类簇数目z；

步骤4)将经过“极差法”归一化处理后的数据样本X_new中的少数类样本，使用BIRCH聚类算法聚为z个聚类簇后，再将聚类结果存储在数据集D＝{cluster_1,cluster_2,cluster_3,cluster_4,cluster_5,....，cluster_z}中；

步骤5)根据密集度公式，计算集合D里各聚类簇中少数类样本点的密集度值；对于样本点密集度公式做如下的定义：样本密集度值指某个少数类样本X_origin与周围K个最近邻同类样本的距离之和Density，即公式描述为：

其中d_i表示两个样本点之间的欧氏距离，i表示样本X_origin周围K个最近邻同类样本中的某一个；

步骤6)将所有聚类簇中少数类样本点，按照少数类样本点密集度大小进行降序排列；根据排序结果将簇内样本点等分为高浓度、中浓度、低浓度三个浓度区；

步骤7)在每个聚类簇中的各个浓度区里，为少数类样本点寻找最近邻的K个少数类样本，对于高浓度区再从少数类样本点寻找到的最近邻的K个少数类样本中选取high_num个少数类样本；对于中浓度区再从少数类样本点寻找到的最近邻的K个少数类样本中选取middle_num个少数类样本；对于低浓度区再从少数类样本点寻找到的最近邻的K个少数类样本中选取low_num个少数类样本；

步骤8)使用步骤7)中所选取的high_num、low_num、middle_num个少数类样本，根据如下公式合成新样本；依照如下公式进行合成后，高浓度区中的每个少数类样本产生high_num个新样本点，对应的中浓度区、低浓度区每个少数类样本分别获得middle_num和low_num个新样本点；

其中，X_{new_1}为新生成样本点；X_origin,i为步骤7)从不同浓度区中选取的少数类样本的第i维特征；X_neighbor,i表示X_origin,i在步骤7)从不同浓度区中选取的少数类样本中的某个近邻样本点的第i维特征；i＝1,2,...,n，n为样本的维度总数目；rand(0,1)表示0到1之间的某一个随机数；

步骤9)对少数类样本进行插值操作后会引入噪声样本点，所以需要对合成后的数据集去噪；通过识别新生成少数类样本的相邻样本点的属性，判断该新生成样本点是否为噪音；扫描所有的新生成少数类样本点并将噪声点删除；将去噪后所剩余的新合成样本点与步骤2)中经过处理的风机历史数据样本X_new合并，将合并结果存入“最终合成样本集”中；噪声点识别具体流程如下：

a)计算新生成样本点X_{new_1}在风机历史数据样本中的20个最近邻样本；设m′为这20个最近邻样本当中属于少数类样本的样本数目；

b)如果m′＝20，则判定新生成样本点X_{new_1}是噪音点；

c)如果0≤m′≤10，则判定新生样本点X_{new_1}为安全的新生样点，不是一个噪音点，且不做任何操作；

d)如果10≤m′≤20，则判定新生样本点X_{new_1}为危险点，需要在这个点附近生成一些新的少数类样本点，并把它加入到DANGER集合中；

最后，对于每个在DANGER集合中的新生成样本点X_{new_1}，使用smote 算法生成新的样本，并剔除所有的噪音点；其中smote算法的公式表示为：

X_{new_2}＝X_{new_1}+rand(0,1)×(X_j-X_{new_1}),j＝1,2,...,N

式中，X_{new_2}表示新合成的少数类样本；X_{new_1}表示被用来合成新样本的原始少数类样本；rand(0,1)表示0到1之间的某个随机数；X_j表示所述原始少数类样本X_{new_1}在所述一些新的少数类样本点中的K个近邻样本中随机选择的某个样本，N为所述一些新的少数类样本点的总数；

步骤10)使用随机森林模型对“最终合成样本集”中数据进行训练，得到风机结冰预测模型；将2号风机的运行数据作为测试数据，用以检验预测方法的有效性；其中采用AUC作为风机叶片结冰预测效果的评估标准；AUC是衡量分类器好坏的一个量化标准，取值在0.5到1之间，越高的AUC值表示分类器的性能越好，如果AUC为0.5就相当于完全随机分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910207037.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于不平衡数据集情况下的风机叶片结冰预测方法有效

专利文献下载