[发明专利]NRIET基于云分类和机器学习的定量降水估测方法在审
申请号: | 201910634781.2 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110346844A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 吴雪 | 申请(专利权)人: | 南京恩瑞特实业有限公司 |
主分类号: | G01W1/14 | 分类号: | G01W1/14;G01S13/95;G06K9/62;G06N20/20 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
地址: | 210039 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种NRIET基于云分类和机器学习的定量降水估测方法,本发明采用了基于云分类和机器学习的定量降水估测,首先进行雷达数据和雨量计数据预处理,并基于站点匹配雷达反射率和雨量计降水数据;根据雷达反射率强度识别层云和对流云等不同云系;然后使用机器学习回归算法实时进行拟合训练,得到累计降水量和雷达组合反射率的关系模型;最后实时将累计降水量和雷达组合反射率的关系模型作用于雷达组合反射率格点场数据,即可得到准实时的定量降水估测场。 | ||
搜索关键词: | 估测 组合反射率 机器学习 降水 雷达反射率 关系模型 雷达 降水量 分类 预处理 雨量计数据 雷达数据 使用机器 场数据 雨量计 准实时 格点 拟合 算法 匹配 站点 回归 学习 | ||
【主权项】:
1.一种NRIET基于云分类和机器学习的定量降水估测方法,其特征在于,包括以下步骤:步骤一、雷达数据预处理包括单站雷达数据处理和雷达三维组网拼图:1)单站数据处理单站数据处理负责基数据压缩包的解压、质量控制和格点化处理;单部雷达的质量控制算法基于模糊逻辑的原理,根据回波强度纹理、垂直变化、径向方向变号、径向库间变化程度;径向速度区域平均值和方差,速度谱宽区域平均值共计7个物理量,结合超折射地物回波识别的梯形隶属函数,通过分步识别的方式剔除超折射地物杂波;单站格点化数据的处理,采用近邻和垂直插值相结合的方法,将质量控制后的雷达体扫数据,从球坐标系转换到笛卡尔坐标系;2)雷达三维组网拼图设置组网数据时间、空间分辨率,联合多部雷达的单站格点数据进行三维组网拼图;雷达三维组网拼图算法,根据雷达回波概率特征识别得到的单部雷达部分遮挡区域,先剔除单部雷达部分遮挡区域内的弱回波,然后再参照公式(3)计算高度层H内的组合反射率因子;
其中,ZH(k,l)是高度层H上的组网反射率因子,Zi(k,l)是第i个雷达在(k,l)坐标处的反射率因子,wi(k,l)是相应的加权权重系数;第m个雷达在坐标(k,l)处的反射率因子受到部分遮挡效应的影响,因而不参与该格点的雷达组网拼图;步骤二、雨量计数据预处理:使用区域内分钟级雨量计数据,以雷达组网数据时间为标尺,累积雨量计观测雨量;在此基础上,采用空间一致性评估方法,通过对比目标站点观测要素的估计值(由周边站点的观测值计算得到)和实际观测值,对目标站点观测资料进行质量评估;在剔除估计值和实际观测值之差大于0.1mm/5分钟的观测资料的同时,允许空间差异性在0.1mm/5分钟之内的观测资料的存在;步骤三、云分类根据雷达反射率数据,区分层云和对流云,以针对不同降水类型训练反射率和降水量关系模型;(1)找出对流云点:定义对流阈值,凡是反射率因子大于等于对流阈值的点识别为对流云点;在反射率因子小于对流阈值的所有点中,判别这些点在3~5公里内是否存在达到对流阈值的点,如果有,则这一点也被识别为对流云点;如果没有,以该点为中心,取10~15公里范围内的点作为背景场,计算背景场平均反射率因子bg,如果该中心点的反射率因子大于背景场均值并超过38dBZ或10‑bg2/180,也认为该点为对流云点;(2)找出对流云点的影响区域针对不同反射率因子等级,确定不同大小的影响半径,确定标准如下所示,影响半径内的非对流云点判定为对流点影响区域;当反射率因子等级为25dBZ时,影响半径为1km;当反射率因子等级为30dBZ时,影响半径为2km;当反射率因子等级为35dBZ时,影响半径为3km;当反射率因子等级为40dBZ时,影响半径为4km;步骤四、雨量计数据和雷达组合反射率数据匹配基于区域内雨量计站点,逐个将雨量计降水量数据和对应位置的雷达组合反射率数据、云分类标签进行匹配,形成用于关系模型训练和评估的样本数据集;主要包括:根据每个雨量计的坐标,查询对应位置上的雷达组合反射率数据,建立降水量‑组合反射性数据对;分析数据异常值,根据数据实际分布范围查看数据异常值,在此基础上根据变量规则去除异常值;分析数据分布情况,查看降水量和组合反射率数据分布情况,并根据数据分布类型采用标准化算法,将数据进行归一化处理为标准正态分布,以便机器学习方法处理数据;根据实际样本量划分样本集,将整合好的样本集划分为训练集、验证集和测试集,训练集用于模型训练,验证集用于训练过程中模型调参,测试集用于最终预报模型性能测试;步骤五、对于不同类型云,分别使用机器学习算法训练Z‑R关系模型本发明涉及的问题,是对于有明确物理含义的观测量的统计推断,通过多种基于机器学习的回归算法的检验比较,选择基于决策树的xgboost回归算法对雨量计‑组合反射率数据集进行回归拟合,训练Z‑R关系模型;使用xgboost回归算法训练Z‑R关系模型的步骤包括:1)将经过数据预处理的降雨量‑组合反射率数据对样本集转换为xgboost需要的数据格式;2)初步设置模型参数,包括训练轮数、提前终止轮数、损失函数、有效数据评价方法、分类权重、学习步长、最大深度、最小子节点权重、节点分裂所需的最小损失函数下降值、每棵树随机采样比例、每棵树随机采样特征量比例、权重的L1正则化项;3)使用训练集和验证集数据,采用xgboost算法训练Z‑R关系模型;4)用测试集对预测模型的预报性能进行验证,分析预测正确率、预测准确率和召回率、PR曲线和AP性能评价指标,其中PR曲线的含义为准确率‑召回率曲线,AP的含义为平均准确率;5)模型调参为了使xgboost回归模型表现最好,首先使用xgboost中的skleam接口对模型参数进行调整;在选择参数的过程中,均在验证集上对模型进行检验;xgboost中可以调整的部分参数如下所示,需要分步进行调整;参数learning_rate,含义及作用为:学习步长,梯度下降中的学习步长,决定模型的学习速率;影响:调参过程中逐步下降,可以使模型更鲁棒;参数n_estimator,含义及作用为:模型中含提升树的个数;影响:树的个数越多,模型拟合结果越准确,但过多的树可能导致过拟合;参数max_depth,含义及作用为:单个树的最大深度;影响:树越深,模型拟合结果越准确,但过深的树可能导致过拟合;参数min_child_weight,含义及作用为:一个树节点包含的样本权重之和的最小值,若权重之和小于此值,节点不再分裂;影响:用于控制过拟合,较高的数值可以避免过拟合,但过高的数值也可能导致欠拟合;参数gamma,含义及作用为:树节点分裂需导致分裂后损失函数下降,此参数控制损失函数下降的最小值;影响:此参数越大,模型越保守;参数subsample,含义及作用为:每棵树只使用部分随机数据训练,此部分占全体数据的比例;影响:稍低的取值可以让模型更鲁棒(类似随机森林原理),过低的取值可能导致欠拟合;参数colsample_bytree,含义及作用为:在树节点分裂时,只随机考虑部分特征,此考虑范围占全体特征的比例;影响:稍低的取值可以让模型更鲁棒,过低的取值可能导致欠拟合;参数reg_alpha,含义及作用为:损失函数中,权重的L1正则项的系数;影响:当特征的维数很高时,可以采用此参数来提高算法运行速度;5‑1):固定learning_rate,选取最优的n_estimator;5‑2):固定learning_rate,n_estimator,选取最优的max_depth和min_child_weight;5‑3):固定learning_rate,n_estimator,max_depth,min_child_weight,选取最优的gamma;5‑4):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,选取最优的subsample和colsample_bytree;5‑5):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,subsample,colsample_bytree,选取最优的reg_alpha;5‑6):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,subsample,colsample_bytree,reg_alpha,降低learning_rate并增加n_estimator。经过调参得到最优参数,使用测试集对预测结果进行验证,分析预测正确率、各等级预测准确率和召回率、各等级PR曲线和AP性能评价指标;6)集成学习集成学习是机器学习中把多种模型融合在一起得到一个分类结果的过程;在集成学习的过程中,不仅充分地利用了数据进行交叉验证,而且通过两层模型集成学习的方法融合了多种分类器的结果;集成学习流程包括:将训练集和验证集数据分成5份,用于使用交叉验证进行模型迭代;使用交叉验证数据集迭代训练模型,每轮迭代用在其中的4份数据上训练,对剩下的1份训练数据和所有测试数据进行测试,并将预测的概率保存下来,5轮过后,测试数据上的预测结果取平均,则得到了所有训练和测试数据上预测的概率,这个预测值作为第二层的数据;训练stacking模型,即在第一层的预测概率的基础上训练模型,对比进行集成学习前后的模型在测试集上的预测性能;调整集成学习模型参数,进一步调参优化集成学习模型预测性能;步骤六、定量降水估测将使用xgboost回归算法训练的Z‑R关系模型实时作用于整个组合反射率格点场数据,即可实时得到高精度的定量降水估测场。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京恩瑞特实业有限公司,未经南京恩瑞特实业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910634781.2/,转载请声明来源钻瓜专利网。