[发明专利]一种基于分布式计算的数据依赖挖掘方法及系统有效
申请号: | 201811061441.7 | 申请日: | 2018-09-12 |
公开(公告)号: | CN109325062B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 王宏志;张翔熙 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京格允知识产权代理有限公司 11609 | 代理人: | 周娇娇;李亚东 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 计算 数据 依赖 挖掘 方法 系统 | ||
本发明涉及数据处理技术领域,提供了一种基于分布式计算的数据依赖挖掘方法及系统,其中方法包括:数据重分配步骤、根据原始数据集生成属性相似倒排表;一阶依赖挖掘步骤、根据所述属性相似倒排表挖掘一阶数据依赖关系;高阶依赖挖掘步骤、逐级进行高阶数据依赖关系的挖掘,其中生成高阶数据依赖候选集,并基于挖掘的低阶数据依赖关系对高阶数据依赖候选集进行剪枝,利用属性相似倒排表对剪枝后的高阶数据依赖候选集中的高阶数据依赖关系进行验证。本发明通过生成属性相似倒排表,并采用递推式的数据依赖关系挖掘方式,使得数据依赖挖掘的可靠性和准确性更高。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于分布式计算的数据依赖挖掘方法及系统。
背景技术
在大数据时代以前,通过数据发现数据中所存在的规律,从而对物理世界进行推断与探索,就是各个领域的研究人员不可或缺的工作。其中,数据的依赖关系,即记录的某个属性由其他属性唯一或近似地决定的关系,就是常见的规律形式。一个新的依赖关系的发现,往往能给相关领域的理论研究带来新的启示与发现,更具有数据清洗、数据查询优化等现实意义。而随着大数据时代的到来,工业、医疗、金融、气象等各个领域每时每刻都在产生着大量的数据。其数据量之大,数据产生之快,已经到了无法由人力进行分析与整合的程度。如何通过算法自动高效地挖掘数据依赖关系,具有广泛的现实背景和重要的应用价值。
目前,对于大规模数据上的数据依赖挖掘研究进展缓慢,有应用意义的解决办法大致有以下两种:
(1)采用数据库领域以TANE算法为代表的函数依赖挖掘算法进行递归与剪枝求解。方法(1)的主要问题在于应用领域狭窄。以TANE算法为代表的函数依赖挖掘算法,虽然能够以动态规划的形式,对函数依赖关系进行快速地求解。但其基础在于,函数依赖关系本质上是建立在数据在特定属性上的等值关系的,这种等值关系带来的等价类划分,是这些算法求解的关键。但数据依赖是比函数依赖更广泛的概念,它只要求两个记录在对应的属性上满足距离度规上的相似即可,这种关系不是等价关系,无法划分等价类。这个矛盾导致,效率较好的函数依赖挖掘算法势必不能应用在允许近似相等的数据依赖上。尤其是对于实数、向量、图像等属性,本身就难以建立严格的等值关系,更不可能通过函数依赖来求解了。
(2)由专家给出可能存在的数据依赖关系,在数据集中进行特定的检测与验证。因为是要对所假设的数据依赖关系进行检验,所以其可靠性与性能主要取决于对数据依赖关系的预估的好坏。这导致了两方面问题,一方面,专家对于数据的了解是有限的,在实际的应用中,那些专家未能预测到的数据依赖关系往往具有更大的理论意义;依赖专家的预测,会导致数据中存在的部分数据依赖关系被遗漏。另一方面,如果要避免遗漏,专家势必要对数据依赖关系做出相当宽泛的猜想,导致总的需要检验的数据依赖关系数目趋于可能的数据依赖关系总数(属性数目的指数级别)。这两者难以进行协调,将会导致数据依赖的挖掘要么遗漏甚多,要么性能低下。
发明内容
本发明要解决的技术问题在于,针对现有技术中时间序列分类存在的以上一个或多个缺陷,提供了一种基于分布式计算的数据依赖挖掘方法及系统。
为了解决上述技术问题,本发明第一方面,提供了一种基于分布式计算的数据依赖挖掘方法,包括以下步骤:
数据重分配步骤、根据原始数据集生成属性相似倒排表;
一阶依赖挖掘步骤、根据所述属性相似倒排表挖掘一阶数据依赖关系;
高阶依赖挖掘步骤、逐级进行高阶数据依赖关系的挖掘,其中生成高阶数据依赖候选集,并基于挖掘的低阶数据依赖关系对高阶数据依赖候选集进行剪枝,利用属性相似倒排表对剪枝后的高阶数据依赖候选集中的高阶数据依赖关系进行验证。
可选地,所述数据重分配步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811061441.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于概率分布的异常数据处理方法及装置
- 下一篇:数据管理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置