[发明专利]一种融合气候分区思想的海陆气候事件关联规则挖掘方法在审

申请号：	201410176895.4	申请日：	2014-04-29
公开（公告）号：	CN103942325A	公开（公告）日：	2014-07-23
发明（设计）人：	邓敏;石岩;杨文涛;刘启亮;刘慧敏;何占军	申请（专利权）人：	中南大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	410083***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种融合气候分区思想的海陆气候事件关联规则挖掘方法。本发明通过对空间数据建立Delaunay三角网并施加整体和局部长边约束，获得合理稳健的空间邻近关系网，进而度量空间邻近实体间时间序列的相似性，进行层次聚类得到多层次聚类结果，基于伪T统计量分析获得较佳气候分区结果；纳入相关领域先验知识约束，分别从海洋气候指数和各陆地气候区域提取感兴趣气候事件，进而通过施加时间窗口宽度约束、时间延迟约束、充分度和必要度约束，挖掘海陆气候事件间的有效关联规则。本发明在挖掘过程中可有效顾及多尺度效应得到有效气候区域，多重约束亦使得本发明在挖掘关联规则时具有高效性、针对性和实用性。
搜索关键词：	一种融合气候分区思想海陆事件关联规则挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种融合气候分区思想的海陆气候事件关联规则挖掘方法，其特征是，其步骤如下：(1)时间序列数据正态化检测与预处理针对离散分布的空间数据以及每个空间实体所蕴含的时间序列，首先采用QQ图检验法进行时间序列数据正态化检测，若序列不服从正态分布则对其进行开根号处理，即：

<mrow><msup><msub><mi>Z</mi><mi>i</mi></msub><mo>'</mo></msup><mo>=</mo><msqrt><msub><mi>Z</mi><mi>i</mi></msub></msqrt></mrow>

Z_i表示原始时间序列数据，Z_i^’表示原始时间序列数据各个时间点所记数值进行开根号处理后形成的新时间序列；进而采用新的时间序列数据作为下一步分析对象；(2)采用顾及空间邻近的层次聚类方法进行陆地气候分区2.1)对初始散点数据构造Delaunay三角网，进而对三角网施加整体边长约束和局部边长约束，从而精化每个点的空间邻近域；其中，整体约束条件表达为C^Global(E_i)，表示边E_i的整体约束条件，利用下列公式进行计算：

<mrow><msup><mi>C</mi><mi>Global</mi></msup><mrow><mo>(</mo><msub><mi>E</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>Mean</mi><mrow><mo>(</mo><mi>DT</mi><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><mi>Mean</mi><mrow><mo>(</mo><mi>DT</mi><mo>)</mo></mrow></mrow><mrow><mo>|</mo><msub><mi>E</mi><mi>i</mi></msub><mo>|</mo></mrow></mfrac><mo>*</mo><mi>SD</mi><mrow><mo>(</mo><mi>DT</mi><mo>)</mo></mrow></mrow>

其中，Mean(DT)表示三角网的平均边长；SD(DT)表示三角网所有边的边长标准差；|E_i|表示边E_i的边长值；局部边长约束条件表达为表示与实体p连接的边E_j的局部约束条件，利用下列公式计算：

<mrow><msubsup><mi>C</mi><mi>i</mi><mi>Local</mi></msubsup><mrow><mo>(</mo><msub><mi>E</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>Mean</mi><mrow><mo>(</mo><mi>NN</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><mi>Mean</mi><mrow><mo>(</mo><mi>NN</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><mo>|</mo><msub><mi>E</mi><mi>j</mi></msub><mo>|</mo></mrow></mfrac><mo>*</mo><mi>Mean</mi><mrow><mo>(</mo><msub><mi>SD</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>

<mrow><mi>Mean</mi><mrow><mo>(</mo><msub><mi>SD</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><mi>SD</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mi>k</mi></mfrac><mo>,</mo><msub><mi>p</mi><mi>j</mi></msub><mo>&Element;</mo><msub><mi>G</mi><mi>i</mi></msub></mrow>

其中，Mean(NN(p))表示图G_i中，p的空间邻域内所有边的边长平均值；SD(p_j)为图G_i中，p_j的一阶邻域(即与p直接连接的边)内所有边的边长标准差；Mean(SD_i)表示图G_i中，所有实体的一阶邻域内边长标准差的平均值；2.2)针对每个空间实体E_m，用WARD法度量与其空间邻域实体E_n之间的距离利用下列公式计算：

<mrow><msubsup><mi>D</mi><mrow><msub><mi>E</mi><mi>m</mi></msub><msub><mi>E</mi><mi>n</mi></msub></mrow><mn>2</mn></msubsup><mo>=</mo><mfrac><mrow><msub><mi>n</mi><msub><mi>E</mi><mi>m</mi></msub></msub><msub><mi>n</mi><msub><mi>E</mi><mi>n</mi></msub></msub></mrow><mrow><msub><mi>n</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>+</mo><msub><mi>n</mi><msub><mi>E</mi><mi>n</mi></msub></msub></mrow></mfrac><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>

其中，分别表示空间实体E_m和E_n所含子实体数目(初始状态下所有实体仅含一个子实体)；分别表示空间实体E_m和E_n内所有子实体的属性均值；2.3)对数据集中最相似的两个实体进行聚合成簇，用簇内所有实体属性均值作为簇的属性；2.4)用聚合成的簇作为新实体，重复步骤2.2)和2.3)，直到所有点聚合为一个整体，从而得到层次树和每一层的聚合结果；2.5)从层次树中选择合适的区间结果进行伪T统计量分析，并从中选取合适的聚合结果；其中，空间簇E_m、E_n的离差平方和分别为：

<mrow><msub><mi>S</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>=</mo><munder><mi>Σ</mi><mrow><msub><mi>x</mi><mi>m</mi></msub><mo>&Element;</mo><msub><mi>E</mi><mi>m</mi></msub></mrow></munder><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><mi>m</mi></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><mover><msub><mi>x</mi><mi>m</mi></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>

<mrow><msub><mi>S</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>=</mo><munder><mi>Σ</mi><mrow><msub><mi>x</mi><mi>n</mi></msub><mo>&Element;</mo><msub><mi>E</mi><mi>n</mi></msub></mrow></munder><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>n</mi></msub><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>n</mi></msub><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>

将E_m、E_n聚类E_l后的离差平方和为：

<mrow><msub><mi>S</mi><msub><mi>E</mi><mi>l</mi></msub></msub><mo>=</mo><munder><mi>Σ</mi><mrow><msub><mi>x</mi><mi>l</mi></msub><mo>&Element;</mo><msub><mi>E</mi><mi>l</mi></msub></mrow></munder><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>l</mi></msub><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>l</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>l</mi></msub><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>l</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>

那么合并后的离差平方和增量为：

<mrow><msub><mi>W</mi><mrow><msub><mi>E</mi><mi>m</mi></msub><msub><mi>E</mi><mi>n</mi></msub></mrow></msub><mo>=</mo><msub><mi>S</mi><msub><mi>E</mi><mi>l</mi></msub></msub><mo>-</mo><msub><mi>S</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>-</mo><msub><mi>S</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>=</mo><mfrac><mrow><msub><mi>n</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>+</mo><msub><mi>n</mi><msub><mi>E</mi><mi>n</mi></msub></msub></mrow><msub><mi>n</mi><msub><mi>E</mi><mi>l</mi></msub></msub></mfrac><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>&OverBar;</mo></mover><mo>-</mo><mover><msub><mi>x</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>

进而定义伪T统计量PST为：

<mrow><mi>PST</mi><mo>=</mo><mfrac><msub><mi>W</mi><mrow><msub><mi>E</mi><mi>m</mi></msub><msub><mi>E</mi><mi>n</mi></msub></mrow></msub><mrow><mrow><mo>(</mo><msub><mi>S</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>+</mo><msub><mi>S</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>)</mo></mrow><mo>/</mo><mrow><mo>(</mo><msub><mi>n</mi><msub><mi>E</mi><mi>m</mi></msub></msub><mo>+</mo><msub><mi>n</mi><msub><mi>E</mi><mi>n</mi></msub></msub><mo>-</mo><mn>2</mn><mo>)</mo></mrow></mrow></mfrac></mrow>

其中，分别表示空间实体E_m和E_n所含空间实体数目；x_m、x_n和x_l分别表示空间簇E_m、E_n和E_l内的空间实体；分别表示空间簇E_m、E_n和E_l内空间实体的属性均值；PST越大，说明合并E_m、E_n为E_l后，离差平方和的增量W_mn与原空间簇E_m、E_n的类内离差平方和的比值越大，即表明合并后的两个空间簇E_m、E_n越分开，也就是上一层次聚类效果较好；(3)针对步骤(1)得到的有效陆地气候区域，融合海洋气候指数进行顾及多约束的时序关联规则挖掘3.1)受约于相关应用背景需要和领域知识，对气候时间序列进行离散化并从中提取感兴趣事件；例如对于降水时间序列，仅提取出其中的异常强、弱降水值所在时间点作为下一步研究对象，并确定因子属性和结果属性作为规则前件和后件，例如将海洋气候要素作为规则前件，陆地气候要素作为规则后件；3.2)参数初始化：根据相关领域先验知识设置时间窗口宽度阈值min_win，时间延迟阈值time_lag，充分度阈值min_Suf，必要度阈值min_Nec；3.3)针对步骤3.1)提取的感兴趣事件，探索性的对其施加时间窗口宽度约束，从而得到一系列的有效前、后件事件集；给定事件序列ES＝<s,T_s,T_e>，其中：s＝<(A₁,t₁),(A₂,t₂),…,(A_n,t_n)>表示事件集合，A_i隶属于不同事件类型ET，T_s和T_e分别为ES的起始时间和结束时间；任意n个不同事件类型构成一个n元事件集EP＝<ET₁,ET2,…,ET_n>，其中分别隶属于这n个事件类型的n个事件构成此事件集的项EPI；若事件集EPI中事件发生时间与结束时间之差，即时间窗口宽度win_width≤min_win，那么EPI即为EP的有效事件；分别针对3.1)中得到的前件和后件，提取得到有效前后件事件集；3.4)记步骤3.3)得到的有效后件事件集的数目n_c，顾及n_c、min_Suf和min_Nec，对有效前件事件集进行筛选，保留数目位于区间[n_c*min_Nec，n_c/min_Suf]的有效前件事件集，以减少无效规则的产生；3.5)针对两个前后件事件集EP_A和EP_C中的有效事件项EPI_A和EPI_C，可得到形如EPI_A→EPI_C的关联规则AR，给定某一有效前件EPI_Ai和有效后件EPI_Ci，其中时间发生起始时间分别为t_s和t_s′，结束时间分别记为t_e和t_e’，若0＜t_s′‑t_s≤time_lag且t_e’‑t_e＞0，那么将EPI_Ai→EPI_Ci定义为关联规则AR的一条有效项；进而，记AR的有效项中前件数目为n_a，后件数目为nc，若n_a/n_c>min_Suf且n_c/n_a>min_Nec，那么定义AR为一条有效关联规则；从而，采用以上策略提取所有的有效关联规则；3.6)根据相关领域知识对得到的有效规则进行验证分析，最终从规则里面提取出潜在的模式和知识；(4)对有效规则进行可视化显示，并输出最终结果文件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410176895.4/，转载请声明来源钻瓜专利网。

上一篇：带排水功能的新型窗扇梃
下一篇：扩展到用反向弧编码最小和最大约束的有向图的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合气候分区思想的海陆气候事件关联规则挖掘方法在审

专利文献下载