[发明专利]一种融合气候分区思想的海陆气候事件关联规则挖掘方法在审

专利信息
申请号: 201410176895.4 申请日: 2014-04-29
公开(公告)号: CN103942325A 公开(公告)日: 2014-07-23
发明(设计)人: 邓敏;石岩;杨文涛;刘启亮;刘慧敏;何占军 申请(专利权)人: 中南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 410083*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种融合气候分区思想的海陆气候事件关联规则挖掘方法。本发明通过对空间数据建立Delaunay三角网并施加整体和局部长边约束,获得合理稳健的空间邻近关系网,进而度量空间邻近实体间时间序列的相似性,进行层次聚类得到多层次聚类结果,基于伪T统计量分析获得较佳气候分区结果;纳入相关领域先验知识约束,分别从海洋气候指数和各陆地气候区域提取感兴趣气候事件,进而通过施加时间窗口宽度约束、时间延迟约束、充分度和必要度约束,挖掘海陆气候事件间的有效关联规则。本发明在挖掘过程中可有效顾及多尺度效应得到有效气候区域,多重约束亦使得本发明在挖掘关联规则时具有高效性、针对性和实用性。
搜索关键词: 一种 融合 气候 分区 思想 海陆 事件 关联 规则 挖掘 方法
【主权项】:
一种融合气候分区思想的海陆气候事件关联规则挖掘方法,其特征是,其步骤如下:(1)时间序列数据正态化检测与预处理针对离散分布的空间数据以及每个空间实体所蕴含的时间序列,首先采用QQ图检验法进行时间序列数据正态化检测,若序列不服从正态分布则对其进行开根号处理,即:<mrow><msup><msub><mi>Z</mi><mi>i</mi></msub><mo>'</mo></msup><mo>=</mo><msqrt><msub><mi>Z</mi><mi>i</mi></msub></msqrt></mrow>Zi表示原始时间序列数据,Zi表示原始时间序列数据各个时间点所记数值进行开根号处理后形成的新时间序列;进而采用新的时间序列数据作为下一步分析对象;(2)采用顾及空间邻近的层次聚类方法进行陆地气候分区2.1)对初始散点数据构造Delaunay三角网,进而对三角网施加整体边长约束和局部边长约束,从而精化每个点的空间邻近域;其中,整体约束条件表达为CGlobal(Ei),表示边Ei的整体约束条件,利用下列公式进行计算:<mrow><msup><mi>C</mi><mi>Global</mi></msup><mrow><mo>(</mo><msub><mi>E</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>Mean</mi><mrow><mo>(</mo><mi>DT</mi><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><mi>Mean</mi><mrow><mo>(</mo><mi>DT</mi><mo>)</mo></mrow></mrow><mrow><mo>|</mo><msub><mi>E</mi><mi>i</mi></msub><mo>|</mo></mrow></mfrac><mo>*</mo><mi>SD</mi><mrow><mo>(</mo><mi>DT</mi><mo>)</mo></mrow></mrow>其中,Mean(DT)表示三角网的平均边长;SD(DT)表示三角网所有边的边长标准差;|Ei|表示边Ei的边长值;局部边长约束条件表达为表示与实体p连接的边Ej的局部约束条件,利用下列公式计算:<mrow><msubsup><mi>C</mi><mi>i</mi><mi>Local</mi></msubsup><mrow><mo>(</mo><msub><mi>E</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>Mean</mi><mrow><mo>(</mo><mi>NN</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><mi>Mean</mi><mrow><mo>(</mo><mi>NN</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><mo>|</mo><msub><mi>E</mi><mi>j</mi></msub><mo>|</mo></mrow></mfrac><mo>*</mo><mi>Mean</mi><mrow><mo>(</mo><msub><mi>SD</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>Mean</mi><mrow><mo>(</mo><msub><mi>SD</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><mi>SD</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mi>k</mi></mfrac><mo>,</mo><msub><mi>p</mi><mi>j</mi></msub><mo>&Element;</mo><msub><mi>G</mi><mi>i</mi></msub></mrow>其中,Mean(NN(p))表示图Gi中,p的空间邻域内所有边的边长平均值;SD(pj)为图Gi中,pj的一阶邻域(即与p直接连接的边)内所有边的边长标准差;Mean(SDi)表示图Gi中,所有实体的一阶邻域内边长标准差的平均值;2.2)针对每个空间实体Em,用WARD法度量与其空间邻域实体En之间的距离利用下列公式计算:<mrow><msubsup><mi>D</mi><mrow><msub><mi>E</mi><mi>m</mi></msub><msub><mi>E</mi><mi>n</mi></msub></mrow><mn>2</mn></msubsup><mo>=</mo><mfrac><mrow><msub><mi>n</mi><msub><mi>E</mi><mi>m</mi></msub></msub><msub><mi>n</mi><msub><mi>E</mi><mi>n</mi></msub></msub></mrow><mrow><msub><mi>n</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>+</mo><msub><mi>n</mi><msub><mi>E</mi><mi>n</mi></msub></msub></mrow></mfrac><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>其中,分别表示空间实体Em和En所含子实体数目(初始状态下所有实体仅含一个子实体);分别表示空间实体Em和En内所有子实体的属性均值;2.3)对数据集中最相似的两个实体进行聚合成簇,用簇内所有实体属性均值作为簇的属性;2.4)用聚合成的簇作为新实体,重复步骤2.2)和2.3),直到所有点聚合为一个整体,从而得到层次树和每一层的聚合结果;2.5)从层次树中选择合适的区间结果进行伪T统计量分析,并从中选取合适的聚合结果;其中,空间簇Em、En的离差平方和分别为:<mrow><msub><mi>S</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>x</mi><mi>m</mi></msub><mo>&Element;</mo><msub><mi>E</mi><mi>m</mi></msub></mrow></munder><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><mi>m</mi></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><mover><msub><mi>x</mi><mi>m</mi></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow><mrow><msub><mi>S</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>x</mi><mi>n</mi></msub><mo>&Element;</mo><msub><mi>E</mi><mi>n</mi></msub></mrow></munder><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>n</mi></msub><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>n</mi></msub><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>将Em、En聚类El后的离差平方和为:<mrow><msub><mi>S</mi><msub><mi>E</mi><mi>l</mi></msub></msub><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>x</mi><mi>l</mi></msub><mo>&Element;</mo><msub><mi>E</mi><mi>l</mi></msub></mrow></munder><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>l</mi></msub><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>l</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>l</mi></msub><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>l</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>那么合并后的离差平方和增量为:<mrow><msub><mi>W</mi><mrow><msub><mi>E</mi><mi>m</mi></msub><msub><mi>E</mi><mi>n</mi></msub></mrow></msub><mo>=</mo><msub><mi>S</mi><msub><mi>E</mi><mi>l</mi></msub></msub><mo>-</mo><msub><mi>S</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>-</mo><msub><mi>S</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>=</mo><mfrac><mrow><msub><mi>n</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>+</mo><msub><mi>n</mi><msub><mi>E</mi><mi>n</mi></msub></msub></mrow><msub><mi>n</mi><msub><mi>E</mi><mi>l</mi></msub></msub></mfrac><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>进而定义伪T统计量PST为:<mrow><mi>PST</mi><mo>=</mo><mfrac><msub><mi>W</mi><mrow><msub><mi>E</mi><mi>m</mi></msub><msub><mi>E</mi><mi>n</mi></msub></mrow></msub><mrow><mrow><mo>(</mo><msub><mi>S</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>+</mo><msub><mi>S</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>)</mo></mrow><mo>/</mo><mrow><mo>(</mo><msub><mi>n</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>+</mo><msub><mi>n</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>-</mo><mn>2</mn><mo>)</mo></mrow></mrow></mfrac></mrow>其中,分别表示空间实体Em和En所含空间实体数目;xm、xn和xl分别表示空间簇Em、En和El内的空间实体;分别表示空间簇Em、En和El内空间实体的属性均值;PST越大,说明合并Em、En为El后,离差平方和的增量Wmn与原空间簇Em、En的类内离差平方和的比值越大,即表明合并后的两个空间簇Em、En越分开,也就是上一层次聚类效果较好;(3)针对步骤(1)得到的有效陆地气候区域,融合海洋气候指数进行顾及多约束的时序关联规则挖掘3.1)受约于相关应用背景需要和领域知识,对气候时间序列进行离散化并从中提取感兴趣事件;例如对于降水时间序列,仅提取出其中的异常强、弱降水值所在时间点作为下一步研究对象,并确定因子属性和结果属性作为规则前件和后件,例如将海洋气候要素作为规则前件,陆地气候要素作为规则后件;3.2)参数初始化:根据相关领域先验知识设置时间窗口宽度阈值min_win,时间延迟阈值time_lag,充分度阈值min_Suf,必要度阈值min_Nec;3.3)针对步骤3.1)提取的感兴趣事件,探索性的对其施加时间窗口宽度约束,从而得到一系列的有效前、后件事件集;给定事件序列ES=<s,Ts,Te>,其中:s=<(A1,t1),(A2,t2),…,(An,tn)>表示事件集合,Ai隶属于不同事件类型ET,Ts和Te分别为ES的起始时间和结束时间;任意n个不同事件类型构成一个n元事件集EP=<ET1,ET2,…,ETn>,其中分别隶属于这n个事件类型的n个事件构成此事件集的项EPI;若事件集EPI中事件发生时间与结束时间之差,即时间窗口宽度win_width≤min_win,那么EPI即为EP的有效事件;分别针对3.1)中得到的前件和后件,提取得到有效前后件事件集;3.4)记步骤3.3)得到的有效后件事件集的数目nc,顾及nc、min_Suf和min_Nec,对有效前件事件集进行筛选,保留数目位于区间[nc*min_Nec,nc/min_Suf]的有效前件事件集,以减少无效规则的产生;3.5)针对两个前后件事件集EPA和EPC中的有效事件项EPIA和EPIC,可得到形如EPIA→EPIC的关联规则AR,给定某一有效前件EPIAi和有效后件EPICi,其中时间发生起始时间分别为ts和ts′,结束时间分别记为te和te’,若0<ts′‑ts≤time_lag且te’‑te>0,那么将EPIAi→EPICi定义为关联规则AR的一条有效项;进而,记AR的有效项中前件数目为na,后件数目为nc,若na/nc>min_Suf且nc/na>min_Nec,那么定义AR为一条有效关联规则;从而,采用以上策略提取所有的有效关联规则;3.6)根据相关领域知识对得到的有效规则进行验证分析,最终从规则里面提取出潜在的模式和知识;(4)对有效规则进行可视化显示,并输出最终结果文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410176895.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top