[发明专利]一种基于MapReduce的降雨量分类预测方法在审
| 申请号: | 201410220364.0 | 申请日: | 2014-05-22 |
| 公开(公告)号: | CN104036330A | 公开(公告)日: | 2014-09-10 |
| 发明(设计)人: | 薛胜军;陈静怡;许小龙 | 申请(专利权)人: | 南京信息工程大学 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
| 地址: | 210044 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 mapreduce 降雨量 分类 预测 方法 | ||
技术领域
本发明涉及云计算与应用气象领域,尤其涉及一种基于MapReduce的降雨量分类预测方法。
背景技术
目前,我国已拥有两千余气象站台,每日均可产生大量的气象资料,日积月累后,气象历史资料已达PB级。利用海量降雨量历史资料进行分析、预测,传统的单机模式已无法满足气象科研人员对于运算时间的需求,云计算技术的出现和发展为这一问题提供了新的解决方案。利用云计算,使得大量资料得到迅速而有效的处理,将这些方法引入到气象学中,使用它们可以及时处理和分析来自地面,高空,甚至由卫星,雷达等先进大气探测工具所得到的大量资料,体现了预测的时效性。云计算中Hadoop作为Apache的开源分布式平台,在各行业中广泛使用,Hadoop按位存储和处理数据的能力很高,它在可用的计算机集簇间分配数据并完成计算任务,而这些集簇可以方便地扩展到数以千计的节点中。Hadoop自身也能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop处理气象大数据具有易维护,高效等特点,充分体现了云计算的特点。
气象数据是是特定用来描述信息的形式化表示,可以形象的记录气象现象的性质和变化,通过气象数据来研究人们生活的中的大气现象。气候系统由五个圈层所组成,它们之间的相互关系体现在大量的气象数据中,分析气象数据可以寻找出气候存在的相互依赖关系,在研究气候关系时经常建立描述气象数据关系和演变的模型从而达到预测的目的。预测降雨的方法主要有时间序列法、概率统计法。由于降雨的形成原因受到各种随机因子的影响,形成原因复杂,在建立降雨量预测模型时会产生相应难度,预测方法的精度受到很大的局限性。
贝叶斯算法预测属于概率统计法,在实际应用中十分广泛。该算法由Laplace重新发现并完善理论,其基本思想是利用已知的先验概率以及条件概率的密度参数,根据贝叶斯定理计算出相应的后验概率,然后根据所得的后验概率来进行推断和决策。贝叶斯把统计当作是一种不确定性的概率研究,通过一个效用函数(utility function),选择最符合期望值的最优决策树来进行决定一些决策问题。贝叶斯网络如今被运用到各种各样的领域,如医疗诊断,金融分析,计算机等等,在计算机应用中,主要是在垃圾邮件过滤,预测,数据挖掘方面的应用,气象应用中,在防洪方面所表现的预测性能也十分优异。将降雨量预测与机器学习相结合,通过辅助工具进行大量的数据统计,其最终结果往往表现优异。
由于建立完全贝叶斯网络是一个NP难题,朴素贝叶斯模型的建立需要满足一个很强的假设:属性之间相互独立。预测降雨量的属性集之间是不可能满足这样严格的条件,为能够最大化提高预测准确率,选择一种折中的方法,在属性之间增加一些边来表示属性之间的依赖关系。选择贝叶斯网络中的折中方法TAN(Tree-Augmented Naive Bayes,加树朴素贝叶斯模型)分类算法与Hadoop中并行模型MapReduce相结合,不但解决了大数据处理问题,也提高了降雨量预测的准确率。
发明内容
本发明要解决的技术问题在于:利用MapReduce模型构造TAN降雨量分类预测方法,根据降雨量气候特点,建立相应的预测方法对降雨量进行分级预测,提高降雨量预测的准确率。
本发明解决其技术问题所采用的技术方案是:
本发明提出的基于MapReduce的降雨量分类预测方法,包括以下步骤:
步骤1、气象文件格式预处理及属性变量的选择;
步骤2、在MapReduce模型下对降雨量资料进行数据统计;
步骤3、将历年降雨量资料分为训练集以及测试集,对测试集建立TAN降雨量预测模型,从而对降雨量进行预测分析。
进一步的,本发明的基于MapReduce的降雨量分类预测方法,步骤1具体包括以下步骤:
步骤1.1、属性变量选择;根据相关系数计算公式求得属性变量之间的相关性rab,从而获取给定预测条件的属性变量类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410220364.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:表面包覆切削工具
- 下一篇:基于含环氧基团的丁腈橡胶的可固化组合物
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





